hadoop distcp命令 多個集群的hdfs數(shù)據(jù)怎么同步?
多個集群的hdfs數(shù)據(jù)怎么同步?1. 用相同的Hadoop版本同步數(shù)據(jù)Hadoop distcp-skipcrccheck-Update-M 20hdfs://dchadoop002.dx:8020/
多個集群的hdfs數(shù)據(jù)怎么同步?
1. 用相同的Hadoop版本同步數(shù)據(jù)
Hadoop distcp-skipcrccheck-Update-M 20hdfs://dchadoop002.dx:8020/user/DC/warehouse/test/user/DC/warehouse/test
2。不同的Hadoop版本同步數(shù)據(jù)
Hadoop distcp-skipcrccheck-Update-M 20hftp://ns1/user/test/User/DC/test
參數(shù):
-M表示并發(fā)性
-skipcrccheck跳過HDFS檢查
-update file
Hadoop是一個運行在集群環(huán)境中的大數(shù)據(jù)框架,包括分布式存儲和分布式計算。
Hadoop流行的一個重要原因是它不需要很高的硬件,通常超過8g的內(nèi)存可以運行Hadoop。許多研究Hadoop的程序員從部署偽集群開始,這表明Hadoop對硬件的要求非常低。但要想順利運行Hadoop,其中一個關鍵點是增加內(nèi)存和使用超過i5cpu。
Hadoop對內(nèi)存和CPU的要求非常敏感。如果使用spark,建議內(nèi)存大于32g,否則處理速度會受到很大影響,因為spark是基于內(nèi)存的。
Hadoop是學習階段的選擇。商業(yè)大數(shù)據(jù)平臺一般會在Hadoop的基礎上進行打包,或者選擇成熟的商業(yè)大數(shù)據(jù)平臺。由于Hadoop的部署和操作維護比較麻煩,商業(yè)平臺通常比較完善,使用起來也比較方便。