hadoop distcp命令多個集群的hdfs數(shù)據(jù)怎么同步？

2021-03-11

2161

多個集群的hdfs數(shù)據(jù)怎么同步？1. 用相同的Hadoop版本同步數(shù)據(jù)Hadoop distcp-skipcrccheck-Update-M 20hdfs://dchadoop002.dx：8020/

多個集群的hdfs數(shù)據(jù)怎么同步？

1. 用相同的Hadoop版本同步數(shù)據(jù)

Hadoop distcp-skipcrccheck-Update-M 20hdfs://dchadoop002.dx：8020/user/DC/warehouse/test/user/DC/warehouse/test

2。不同的Hadoop版本同步數(shù)據(jù)

Hadoop distcp-skipcrccheck-Update-M 20hftp://ns1/user/test/User/DC/test

參數(shù)：

-M表示并發(fā)性

-skipcrccheck跳過HDFS檢查

-update file

Hadoop是一個運行在集群環(huán)境中的大數(shù)據(jù)框架，包括分布式存儲和分布式計算。

Hadoop流行的一個重要原因是它不需要很高的硬件，通常超過8g的內(nèi)存可以運行Hadoop。許多研究Hadoop的程序員從部署偽集群開始，這表明Hadoop對硬件的要求非常低。但要想順利運行Hadoop，其中一個關鍵點是增加內(nèi)存和使用超過i5cpu。

Hadoop對內(nèi)存和CPU的要求非常敏感。如果使用spark，建議內(nèi)存大于32g，否則處理速度會受到很大影響，因為spark是基于內(nèi)存的。

Hadoop是學習階段的選擇。商業(yè)大數(shù)據(jù)平臺一般會在Hadoop的基礎上進行打包，或者選擇成熟的商業(yè)大數(shù)據(jù)平臺。由于Hadoop的部署和操作維護比較麻煩，商業(yè)平臺通常比較完善，使用起來也比較方便。