卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

hive刪除一個分區(qū)的數(shù)據(jù) hive的分區(qū)和分桶有什么卻別,分別怎么做?

hive的分區(qū)和分桶有什么卻別,分別怎么做?一、1、一個表也可以擁有一個或是多個分區(qū),每個分區(qū)以文件夾的形式另修真者的存在表文件夾的目錄下。2、表和字段名不區(qū)分大小寫字母。3、分區(qū)是以字段的形式在表結(jié)

hive的分區(qū)和分桶有什么卻別,分別怎么做?

一、1、一個表也可以擁有一個或是多個分區(qū),每個分區(qū)以文件夾的形式另修真者的存在表文件夾的目錄下。

2、表和字段名不區(qū)分大小寫字母。

3、分區(qū)是以字段的形式在表結(jié)構(gòu)中修真者的存在,按照describetable命令這個可以查看到字段修真者的存在,只不過該字段不貯存實際中的數(shù)據(jù)內(nèi)容,并不是分區(qū)的意思是。

二、桶是比表或分區(qū)無比細顆粒度的數(shù)據(jù)范圍劃分。針對某一列并且桶的組織,對列值哈希,接著除以桶的個數(shù)求余,確定將該條記錄儲存時到哪個桶中。好處:

1、完成任務(wù)更高的查詢處理效率。

2、使抽樣更高效穩(wěn)定。

hadoop任務(wù),給定數(shù)據(jù)量和處理邏輯(Sql、UDF等),如何預(yù)估計算時間與資源?有沒有實際案例?

是需要比較明確概念定義:可以計算時間是指計算機不好算執(zhí)行的時間,不是人耐心的等待的時間,而且在等待時間依賴性太強于有多少資源也可以調(diào)度。

簡單的方法我們不考慮到資源問題,討論到時間的預(yù)估。執(zhí)行時間依賴于執(zhí)行引擎是Spark我還是MapReduce。

Spark任務(wù)Spark任務(wù)的總執(zhí)行時間這個可以看SparkUI,以下圖為例

Spark任務(wù)是分多個PhysicalStage執(zhí)行的,每個stage下有很多個task,task的時間也有大概的預(yù)估,如下圖

Task個數(shù)依賴于Hive表的文件數(shù),每個task的執(zhí)行時間依賴感于UDF是怎末利用的,需要具體問題具體對待。

MapReduce任務(wù)MapReduce任務(wù)的執(zhí)行時間,也不需要參考hadoopwebui

整體執(zhí)行時間map_time*map_numberreduce_time*reduce_number;

map個數(shù)一般情況下是hive表的分區(qū)數(shù);

map執(zhí)行時間取決于它每個分區(qū)里的數(shù)據(jù)量和udf的邏輯;

無論是Spark應(yīng)該MapReduce,計算時間都依賴于:

數(shù)據(jù)源分區(qū)數(shù)每個分區(qū)里的文件數(shù)每個文件的大小udf邏輯sql邏輯(group by、filter、distinctcount)

實際場景下資源是太遠的,我們也不冷淡可以計算時間,反到是更關(guān)心一個數(shù)據(jù)集是需要多久能一次性處理完,諸如一個1T的Hive表至少不需要一個小時跑完MapReduce。這時候我們是需要做實驗,仔細觀察一個分區(qū)差不多必須多久跑完,數(shù)據(jù)有沒有skew,從經(jīng)驗上提出另一個合理的時間,使之可以保證任務(wù)未交付。