如何修改hive表的存儲格式 orc表優(yōu)缺點?
orc表優(yōu)缺點?Hive的ORC表和Parquet表除了直接配置MapReduce壓縮功能,還直接支持表的壓縮屬性。但是,支持的壓縮格式有限。ORC表支持Non數(shù)據(jù)分析一般包括哪些內(nèi)容?數(shù)據(jù)分析是一個
orc表優(yōu)缺點?
Hive的ORC表和Parquet表除了直接配置MapReduce壓縮功能,還直接支持表的壓縮屬性。
但是,支持的壓縮格式有限。ORC表支持Non
數(shù)據(jù)分析一般包括哪些內(nèi)容?
數(shù)據(jù)分析是一個比較大的框架。從字面上講,就是從數(shù)據(jù)中提取有用的規(guī)則或邏輯。
工作中數(shù)據(jù)分析的功能主要分為以下六個步驟:
數(shù)據(jù)收集
數(shù)據(jù)清理
數(shù)據(jù)存儲
指數(shù)計算
數(shù)據(jù)的統(tǒng)計分析和建模
數(shù)據(jù)可視化
第一步是數(shù)據(jù)收集:當(dāng)我們的數(shù)據(jù)還沒有形成一個具體的系統(tǒng)的時候,或者當(dāng)我們的業(yè)務(wù)正在進行時,我們需要通過各種渠道獲取數(shù)據(jù)。數(shù)據(jù)采集的方法有很多種,包括程序自動采集(數(shù)據(jù)嵌入點、網(wǎng)絡(luò)爬蟲、ERP或CRM系統(tǒng)自動生成等。)、人工統(tǒng)計(Excel統(tǒng)計)、從第三方網(wǎng)站提取(通過公共數(shù)據(jù)網(wǎng)站、API等下載。),等等。方法的選擇遵循商業(yè)形式。
第二步是數(shù)據(jù)清洗:采集的數(shù)據(jù)是臟數(shù)據(jù),需要進行清洗,即取其精華,去其糟粕,這樣數(shù)據(jù)才能正常使用。這一步的操作主要使用正則表達式進行數(shù)據(jù)清理。采集的數(shù)據(jù)有各種格式,需要轉(zhuǎn)碼成特定的格式并編碼。
第三步:數(shù)據(jù)存儲:作為公司 s數(shù)據(jù)越來越大,互聯(lián)網(wǎng)時代已經(jīng)從IT變成了DT?,F(xiàn)在各個公司的業(yè)務(wù)數(shù)據(jù)都是幾何級增長,所以在存儲數(shù)據(jù)的時候肯定不能再用以前那個用紙筆記錄的時代了。目前數(shù)據(jù)量不大的公司一般都是用Excel文件進行數(shù)據(jù)存儲。許多公司也使用數(shù)據(jù)庫產(chǎn)品進行數(shù)據(jù)存儲。市場上也有很多性能不錯的數(shù)據(jù)庫產(chǎn)品,如Oracle、MySQL、SqlServer等?,F(xiàn)在針對大數(shù)據(jù)也有相應(yīng)的蜂巢數(shù)據(jù)倉庫產(chǎn)品。這些產(chǎn)品非常容易使用,其中一些是開源產(chǎn)品。就我們公司而言,之前使用的Oracle、MySQL、SqlServer數(shù)據(jù)庫,由于業(yè)務(wù)線的調(diào)整,已經(jīng)從。單一數(shù)據(jù)庫轉(zhuǎn)向蜂巢數(shù)據(jù)倉庫存儲,更方便技術(shù)、業(yè)務(wù)、分析師等角色提取數(shù)據(jù)。
第四步是指標(biāo)計算:在進行指標(biāo)計算之前,數(shù)據(jù)分析師需要建立當(dāng)前部門的KPI指標(biāo),對應(yīng)的是業(yè)務(wù)部門 不同業(yè)務(wù)場景的好的或壞的數(shù)據(jù)和規(guī)則的反饋。這一步復(fù)雜而持續(xù),可能會貫穿整個數(shù)據(jù)分析生涯。什么是指標(biāo)?指標(biāo)是衡量目標(biāo)的方法,如商品管理中常用的存貨周轉(zhuǎn)率、毛利率,運營中經(jīng)常見到的路徑轉(zhuǎn)換,營銷中經(jīng)常見到的ROI等。相應(yīng)的指標(biāo)反映了不同業(yè)務(wù)場景的質(zhì)量。隨著業(yè)務(wù)和企業(yè)階段的變化,指標(biāo)總是會變化的。
第五步是數(shù)據(jù)的統(tǒng)計分析和建模:這個環(huán)節(jié)是整個數(shù)據(jù)分析過程中最有趣的一個,沒有之一。與前一個環(huán)節(jié)相比,你在這個環(huán)節(jié)會面臨各種各樣的挑戰(zhàn)。什么假設(shè)檢驗,什么線性回歸,什么特征工程,什么貝葉斯等等。都會遇到。在這里你會看到各種數(shù)據(jù)背后的邏輯,以及數(shù)據(jù)產(chǎn)生的價值。而且在數(shù)據(jù)分析的過程中,你可能會遇到數(shù)據(jù)清洗過程的第二步,處理缺失值,處理異常值等等。
第六步是數(shù)據(jù)可視化:即數(shù)據(jù)呈現(xiàn),需要將第五步統(tǒng)計分析建模的結(jié)果以圖形的形式反映出來。俗話說,文字不如表格,表格不像圖片。Tableau、PowerBI、finebi、PPT等數(shù)據(jù)可視化產(chǎn)品在市場上應(yīng)用廣泛。其中,前三種主要是交互形式,即在線存儲的報告,而PPT主要是以報告的形式呈現(xiàn)。
目前的數(shù)據(jù)分析按照功能可以簡單的分為幾個方向:
業(yè)務(wù)數(shù)據(jù)分析師
數(shù)據(jù)挖掘工程師
大數(shù)據(jù)開發(fā)工程師
以上職位在現(xiàn)在的招聘時間里比較常見,之前每個職位都不一樣。業(yè)務(wù)數(shù)據(jù)分析師主要面向業(yè)務(wù),將數(shù)據(jù)應(yīng)用于企業(yè)決策。主要工具有Python,R,Excel,SPSS,tableau,PowerBI等。數(shù)據(jù)挖掘工程師更注重技術(shù)方向,主要是反欺詐、垃圾郵件識別等數(shù)據(jù)應(yīng)用,主要工具有Python、Java、C、C等。大數(shù)據(jù)開發(fā)工程師主要負責(zé)搭建數(shù)據(jù)平臺,開發(fā)適合公司的數(shù)據(jù)平臺;;的數(shù)據(jù)流通過使用hadoop、hive、spark、Python、Java、C、C等工具。數(shù)據(jù)分析是目前為止比較新的崗位,所以大部分人都在不斷學(xué)習(xí)和提高。
以上是我的一些拙見。如有不足,歡迎補充交流。