搭建實時數(shù)倉過程中遇到的問題 阿里云大數(shù)據(jù)產(chǎn)品分析?
阿里云大數(shù)據(jù)產(chǎn)品分析?1.產(chǎn)品主要內(nèi)容關(guān)系網(wǎng)絡(luò)總結(jié)是基于組件大數(shù)據(jù)時空關(guān)系網(wǎng)絡(luò)的可視化分析產(chǎn)品,產(chǎn)品在虛空中“大數(shù)據(jù)多源融合、算出應(yīng)用、清晰顯示分析、業(yè)務(wù)智能”啊,設(shè)計實現(xiàn)程序,增強關(guān)系網(wǎng)絡(luò)、時空數(shù)據(jù)
阿里云大數(shù)據(jù)產(chǎn)品分析?
1.
產(chǎn)品主要內(nèi)容關(guān)系網(wǎng)絡(luò)總結(jié)是基于組件大數(shù)據(jù)時空關(guān)系網(wǎng)絡(luò)的可視化分析產(chǎn)品,產(chǎn)品在虛空中“大數(shù)據(jù)多源融合、算出應(yīng)用、清晰顯示分析、業(yè)務(wù)智能”啊,設(shè)計實現(xiàn)程序,增強關(guān)系網(wǎng)絡(luò)、時空數(shù)據(jù),深入探究對象間的關(guān)聯(lián)和對象時空相關(guān)的模式及規(guī)律。產(chǎn)品可以提供關(guān)聯(lián)網(wǎng)絡(luò)(講)、時空網(wǎng)絡(luò)(地圖)、搜索網(wǎng)絡(luò)、動態(tài)建模等功能,以可視分析的管用凝煉機器的計算能力和人的認知能力,完成任務(wù)這對海量數(shù)據(jù)的洞察力,幫用戶無比形象直觀、又高效地獲取信息和知識。關(guān)系網(wǎng)絡(luò)分析產(chǎn)品區(qū)分組件化、服務(wù)化設(shè)計理念,分成三類存儲文件可以計算層、數(shù)據(jù)服務(wù)層、業(yè)務(wù)應(yīng)用層、分析充分展現(xiàn)層多形式體系架構(gòu)。數(shù)據(jù)存儲算出組建在阿里云自主研發(fā)的大數(shù)據(jù)平臺上,允許PB/EB級別的數(shù)據(jù)規(guī)模,具高強橫無比的數(shù)據(jù)整合、處理、總結(jié)、計算能力。
2.
產(chǎn)品功能關(guān)聯(lián)網(wǎng)絡(luò)從網(wǎng)絡(luò)視角后期結(jié)論,指導(dǎo)用戶探索未知,敏銳洞察信息。需要提供關(guān)聯(lián)反查、團伙分析等功能。
為何有人說數(shù)據(jù)將成為無價之寶?
數(shù)據(jù)自身是沒有價值或是說微乎甚微的,價值是被賦予的,得象黃金完全不一樣,黃金的價值是他的應(yīng)用前景或場景。
數(shù)據(jù)的價值應(yīng)該是數(shù)據(jù)能力體現(xiàn)了什么出的收益,或是說投資回報率。
今天我們就來隨便聊聊數(shù)據(jù)能力和價值。說到大數(shù)據(jù)就不得不提數(shù)據(jù)倉庫,企業(yè)數(shù)據(jù)倉庫衍化至結(jié)果階段恐怕會時變大腦中樞神經(jīng),如果要支撐起整個奇怪的大腦和神經(jīng)系統(tǒng),要一系列的急切機制另外。
一、抽象的數(shù)據(jù)能力架構(gòu)我把數(shù)據(jù)能力抽象概括為四個方向:傳輸能力、計算能力、算法能力和數(shù)據(jù)資產(chǎn)量級,后面會講敘在這四個能力之上相對化出的數(shù)據(jù)應(yīng)用和價值。
1.數(shù)據(jù)傳輸能力
數(shù)據(jù)大部分的使用場景定然會比較復(fù)雜到數(shù)據(jù)傳輸,數(shù)據(jù)傳輸性能做出決定了部分應(yīng)用場景的實現(xiàn),數(shù)據(jù)實時動態(tài)的動態(tài)鏈接庫、加工、算法推薦和預(yù)測等;而傳輸數(shù)據(jù)抽象化進去的支撐體系是底層的數(shù)據(jù)存儲架構(gòu)(不過非同機房的傳輸?shù)囊獩Q定到網(wǎng)絡(luò)環(huán)境等。單純的小數(shù)據(jù)量內(nèi)部函數(shù)等就像應(yīng)該不會牽涉到到這些,但數(shù)據(jù)量級大、高并發(fā)且對SLA要求的很不是很嚴(yán)的時候,是對數(shù)據(jù)傳輸能力的考驗)。
從產(chǎn)品的角度我把數(shù)據(jù)傳輸能力分解為:底層數(shù)據(jù)傳輸效率和應(yīng)用層數(shù)據(jù)傳輸效率。
底層的數(shù)據(jù)傳輸效率是指數(shù)據(jù)源進入到后的預(yù)處理階段的傳輸效率,即加工為產(chǎn)品所需的數(shù)據(jù)實際交付物之前階段。
Ps:數(shù)據(jù)在可為產(chǎn)品所用之前要很長的一段加工過程,應(yīng)用層數(shù)據(jù)產(chǎn)品基本是不內(nèi)容覆蓋底層數(shù)據(jù)加工環(huán)節(jié),而數(shù)據(jù)產(chǎn)品會會用到規(guī)定好的數(shù)據(jù)交付物(即已約定好的結(jié)構(gòu)化或形成標(biāo)準(zhǔn)化的數(shù)據(jù)),而借用此數(shù)據(jù)未交付物再在產(chǎn)品對實際應(yīng)用場景的不兼容和去加工來需要提供數(shù)據(jù)服務(wù)。況且涉及底層數(shù)據(jù)管理的相關(guān)產(chǎn)品都是對Meta元數(shù)據(jù)、可以使用日志或?qū)懞玫膕hell等的動態(tài)創(chuàng)建。
底層數(shù)據(jù)加工計算所不屬于到的傳輸效率,再做出決定了支撐數(shù)據(jù)產(chǎn)品低性能、高可靠的自身需求;而應(yīng)用層的傳輸影響了用戶體驗和場景實現(xiàn)方法。傳輸數(shù)據(jù)機制和體系就像毛細血管完全不一樣密密麻麻周身錯中復(fù)雜,只不過流通速率再決定了大腦供氧是否補充好。
2.數(shù)據(jù)計算能力
數(shù)據(jù)計算能力那像骨髓造血功能完全不一樣,依據(jù)什么多種來源的養(yǎng)分原料接受生產(chǎn)加工終于產(chǎn)出血液。而源數(shù)據(jù)通過集高性能的底層多儲存的分布式技術(shù)架構(gòu)并且ETL(吸納、轉(zhuǎn)換、裝到)刷洗后產(chǎn)出的是數(shù)據(jù)中間層沒限制化的結(jié)構(gòu)化數(shù)據(jù)未交付物。計算速度竟像具有造血速度完全不一樣,判斷了供應(yīng)量。而計算速度真接確定了數(shù)據(jù)應(yīng)用的時效性和應(yīng)用場景。
目前最少最普遍的應(yīng)該是離線模式數(shù)倉,離線數(shù)倉大部分兼任著事后諸葛亮的角色,即沒有辦法能保證數(shù)據(jù)的及時性而提早了數(shù)據(jù)分析及應(yīng)用的產(chǎn)出,導(dǎo)致一些的是沉淀經(jīng)驗而沒法能夠做到實時決策。而數(shù)倉,甚至連說對Data Lake(數(shù)據(jù)湖)的動態(tài)實時處理早就漸漸地新區(qū)應(yīng)用形式多種場景。我們先不考慮更加莫名的實時性特別要求受到的那巨大成本如何確定真的也可以憑空創(chuàng)造相應(yīng)價值的收益。
強實時動態(tài)可以更靠近一個“未來”的狀態(tài),即此時此刻。這遠比算法對未來的預(yù)測更有價值,只不過把握眼前比構(gòu)造多變的未來對一個企業(yè)更有價值。甚至連說當(dāng)數(shù)據(jù)過程快過神經(jīng)元的傳遞,這樣的話從獲取到你腦電波的那一瞬起,數(shù)據(jù)處理的驅(qū)動結(jié)果遠比神經(jīng)元傳達至驅(qū)動四肢要快。
有沒與兵馬未動,糧草先行的場景有幾分相似?當(dāng)然了這是以數(shù)據(jù)計算能力的角度來看待事情這個問題。扯著嗓子以我個人的觀點來說,整體數(shù)據(jù)能力強橫無比到當(dāng)然階段后,會從主觀轉(zhuǎn)變個人的意愿,即按照引導(dǎo)你的大腦最終達到來操縱或判斷個人行為且絕對不會讓你感知,所以我是可以解釋為從主觀改變個人意愿。從人的角度來說,你并到底也可以非常直觀意愿去憑空改變第二步不做,而且大腦是邏輯處理器,其實這又牽涉到心理學(xué),這些觀點就是在此贅敘了,等朝后另起一個篇幅來說數(shù)據(jù)應(yīng)用未來前景和假想。
3.數(shù)據(jù)資產(chǎn)能力
都在說“大”數(shù)據(jù),這樣數(shù)據(jù)量級越大越好嗎?并不是,從某種角度來說大量無價值或是未探尋中出價值的數(shù)據(jù)是個負擔(dān),巨大無比的資源所消耗還不敢貿(mào)然抹滅。
與此同時數(shù)據(jù)量級的以肉眼可見的速度放大,受到的是數(shù)據(jù)孤島:數(shù)據(jù)的不題意、不可聯(lián)、不精確控制、不不可行;這樣的話散亂的數(shù)據(jù)僅有轉(zhuǎn)換成成資產(chǎn)才是可以更好的發(fā)揮價值。
什么是數(shù)據(jù)資產(chǎn),我覺著是可以應(yīng)用范圍的定義為可真接可以使用的交付數(shù)據(jù)再試一下劃為資產(chǎn),其實可真接可以使用的數(shù)據(jù)有很多種形式,諸如meta元數(shù)據(jù)、特征、指標(biāo)、標(biāo)簽和ETL的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)等。
目前也在拓寬思維DataLake的使用場景,真接實時動態(tài)的使用和處理DataLake數(shù)據(jù)的趨勢是一種逐漸擴大企業(yè)自身數(shù)據(jù)資產(chǎn)范圍和資產(chǎn)使用率的。這有利于強行突破數(shù)倉模型對數(shù)據(jù)的框架限定,決定數(shù)據(jù)使用會有更大的想象空間。
數(shù)據(jù)資產(chǎn)的價值也可以分兩部分來考慮到:一部分是數(shù)據(jù)資產(chǎn)然后能夠變現(xiàn)的價值;另一部分是通過數(shù)據(jù)資產(chǎn)才是資源加工后可以提供數(shù)據(jù)服務(wù)的業(yè)務(wù)價值。
第一部分比較好好理解,那是數(shù)據(jù)集的輸出能夠變現(xiàn)值,如標(biāo)簽、樣本和訓(xùn)練集等的再輸出按數(shù)據(jù)量來評估價值;第二部分價值比如說實際自身數(shù)據(jù)訓(xùn)練優(yōu)化后的算法應(yīng)用而進階業(yè)務(wù)收益的價值或依于數(shù)據(jù)的廣告投放的營銷能夠變現(xiàn)等,甚至還說不溶物出的數(shù)據(jù)資產(chǎn)管理能力以及知識的無形資產(chǎn)對外服務(wù)的價值。這些主動的數(shù)據(jù)應(yīng)用和服務(wù)的變現(xiàn)也數(shù)據(jù)資產(chǎn)價值的體現(xiàn)并可以細巧的可量化。
4.數(shù)據(jù)算法能力
不過哪怕傳輸能力我還是計算能力,是低些偏數(shù)據(jù)底層的實現(xiàn),而離業(yè)務(wù)場景最近的應(yīng)該是算法能力所可以提供的算法服務(wù),這是最有效應(yīng)用于業(yè)務(wù)場景且更很容易被用戶五感的數(shù)據(jù)能力,只不過是對傳輸和計算來說用戶感應(yīng)的是速度快慢,從用戶視角快是應(yīng)該是的,所以用戶并真不知道何時何地計算或傳輸。
而算法對業(yè)務(wù)應(yīng)用場景是一個從0到1,盡海到有的過程。因此算法是基于條件數(shù)據(jù)傳輸、計算和資產(chǎn)能力之上片面化出的應(yīng)用能力,也可以況且是三個基礎(chǔ)能力的封裝進化。
而算法能力是把20塊的數(shù)據(jù)集或則說資源到盡可能好的數(shù)據(jù)轉(zhuǎn)化成為一個決策推測結(jié)果來應(yīng)用于業(yè)務(wù)場景。算法能力的差異反映了三個數(shù)據(jù)能力如何確定高效安全依靠,是否必然木桶效應(yīng),更甚者木桶也沒有。不過單純的算法也是可以另充當(dāng)無形資產(chǎn)的知識沉淀來提供服務(wù)。
對此數(shù)據(jù)能力架構(gòu)中的四大能力,傳送數(shù)據(jù)、計算出和資產(chǎn)是基礎(chǔ)能力,而算法是低級的泛化能力。而能力的輸出來和應(yīng)用才能可以體現(xiàn)數(shù)據(jù)價值,數(shù)據(jù)能力的最大化輸出殘酷著整個數(shù)據(jù)產(chǎn)品架構(gòu)體系的通用性和靈活性。只不過需要對于的是各種業(yè)務(wù)衍化出的多種多樣場景,對數(shù)據(jù)能力的需求參差不齊:很可能是片面化的,也可能會是多種能力匹配去協(xié)調(diào)的。這對產(chǎn)品的通用性那就是另一個那巨大的挑戰(zhàn),想更好的防范這個問題,可能會就需要整個數(shù)據(jù)平臺的產(chǎn)品矩陣來支撐和技術(shù)賦能。
二、數(shù)據(jù)能力按數(shù)據(jù)價值的呈現(xiàn)從數(shù)據(jù)應(yīng)用的角度,每個能力都是可以獨立開放也可以不陣列不疊加。要是把能力抽象化出去可能會衍生到產(chǎn)品形態(tài)的問題,產(chǎn)品形態(tài)是對能力全面兼容后可以發(fā)揮作用的交付物。說到產(chǎn)品形態(tài)我們可以不想象再看看場景應(yīng)用。
是需要最基礎(chǔ)的應(yīng)用場景就是數(shù)據(jù)真接調(diào)用,數(shù)據(jù)資產(chǎn)的使用基本上會基于組件特征、指標(biāo)、標(biāo)簽或則知識等未交付形態(tài)。而對于不使用方來說這些數(shù)據(jù)會充當(dāng)半成品原料或依據(jù)來進行二次加工應(yīng)用于業(yè)務(wù)場景中,如數(shù)據(jù)分析、數(shù)據(jù)挖掘、算法的訓(xùn)練與驗證、知識圖譜、個性我推薦、定向投放(觸達)和風(fēng)控等。數(shù)據(jù)資產(chǎn)可以統(tǒng)歸為在數(shù)據(jù)市場中是從構(gòu)建的一些OpenAPI參與賦能。
而對此一個工廠來說,單單并且原材料的加工(ETL)輸出即除此之外自身原材料(數(shù)據(jù)資產(chǎn))的壁壘外核心競爭力很小,不需要包裝一些上層的基礎(chǔ)服務(wù)來提升競爭力,這樣的話數(shù)據(jù)計算的能力融合從里面出來對原材料并且二次加工(凝合統(tǒng)計)。
計算出的吸聚統(tǒng)計能力組建出去后這個可以不滿足大部分的數(shù)據(jù)分析場景的支持,就不光憑是原材料毫無技術(shù)含量的輸出,并這個可以以半成品的形態(tài)完美躲避數(shù)據(jù)比較敏感。因為對于統(tǒng)計值來說,這是一個分析結(jié)果或結(jié)論,并應(yīng)該不會比較復(fù)雜到自身敏感數(shù)據(jù)的輸出,而你的核心資產(chǎn)肯定不會泄露,而輸出的僅是資產(chǎn)的附加值。是說知識產(chǎn)權(quán)專利卻在你手中,是從再控制專利泛化出的能力通過投資回報。
融入計算能力后的一些分析場景如:人群的畫像總結(jié)、多維度的十字交叉分析、業(yè)務(wù)的策略分析和監(jiān)控總結(jié)等多種場景。
隨著時代的發(fā)展和業(yè)務(wù)場景的突然增多,正當(dāng)此時工廠再繼續(xù)不需要產(chǎn)業(yè)變革,要深耕服務(wù)業(yè)漸漸地舍棄制造業(yè)形態(tài),全面提升更中級的數(shù)據(jù)服務(wù)。這時算法能力的加入來好些的系統(tǒng)完善服務(wù)矩陣。
算法通過整體封裝了傳輸數(shù)據(jù)、計算和資產(chǎn)能力而參與統(tǒng)一的更好理解的業(yè)務(wù)場景目標(biāo)預(yù)測國家和識別等。這樣的話對于企業(yè)來說這個可以更不容易進行和低成本使用數(shù)據(jù)服務(wù)而不是需要再比較復(fù)雜到數(shù)據(jù)加工鏈路中,而并不是需要一個目標(biāo)結(jié)果,是從算法的決策才是參考來傳授經(jīng)驗業(yè)務(wù)方向。像算法對一些業(yè)務(wù)場景的預(yù)測分析,哪怕說一些人工智能場景的識別或?qū)W習(xí)認真的思考,都可以算法持續(xù)賦能來實現(xiàn)。相對于企業(yè)來說應(yīng)該是從天到有的突破,企業(yè)發(fā)展進程哪怕很可能提升到好幾年。
而貫穿以上能力應(yīng)用場景全是對數(shù)據(jù)傳輸能力的考驗。