hbase四個組件 spark讀hbaseparquet哪個快?
spark讀hbaseparquet哪個快?spark讀取HBase時,生成的任務(wù)數(shù)受查詢表的區(qū)域數(shù)限制。例如,如果查詢40g數(shù)據(jù),10g數(shù)據(jù)是一個區(qū)域,則可能有4-6個區(qū)域。最初的任務(wù)數(shù)量只有大約4
spark讀hbaseparquet哪個快?
spark讀取HBase時,生成的任務(wù)數(shù)受查詢表的區(qū)域數(shù)限制。例如,如果查詢40g數(shù)據(jù),10g數(shù)據(jù)是一個區(qū)域,則可能有4-6個區(qū)域。最初的任務(wù)數(shù)量只有大約4-6個。RDD可以在以后按分區(qū)設(shè)置任務(wù)數(shù)。spark讀取parquet時,根據(jù)默認的bolck數(shù)生成任務(wù)數(shù),例如128M bolck,幾乎是300多個任務(wù)。另外,HBase還需要與區(qū)域服務(wù)器交互,將數(shù)據(jù)傳輸?shù)絪park的內(nèi)存中,這也消耗時間。一般來說,閱讀拼花更快
~],等等