機器學習中的貝葉斯方法 大數據方面核心技術有哪些?
大數據方面核心技術有哪些?這個問題提問的很有深度,目前大數據是個比較好廣義的概念,牽涉的方方面面太大,若要給個很官方的說法是比較好難,簡單說幫一下忙我清楚的理解:一是數據采集與預處理,也就是說你無論是
大數據方面核心技術有哪些?
這個問題提問的很有深度,目前大數據是個比較好廣義的概念,牽涉的方方面面太大,若要給個很官方的說法是比較好難,簡單說幫一下忙我清楚的理解:
一是數據采集與預處理,也就是說你無論是任何的大數據分析,簡單的方法要有數據支撐,但是數據是很廣的,你要的數據得按關鍵詞也可以一定的分類把數據接受預處理,以備萬一總結時提供動態(tài)創(chuàng)建。數據采集分很多很多種,也可以是網絡資源破霸體、硬件采集、人工錄入系統、數據兩個對接、去購買第三方資源等等,技術很多種FlumeNG、NDC、Logstash、Sqoop、Strom、Zookeeper等。
二是數據存儲,這是個很消耗硬件資源的本質問題,既然如此是大數據,只能證明是一個規(guī)模很大不能量化的過程,與此同時你分析需求,數據會緊接著時間的推移變得異常龐大,應用多技術方法有Hadoop、HBase、Phoenix、Yarm、Mesos、Redis、Atlas、Kudu等。
三是數據清洗,你的數據龐大無比會讓你的是一個整體響應速度造成如此大考驗,讀寫分離,負載均衡等等問題就不需要你去想防范方案,應用方法到的查詢引擎工作流調度引擎技術有MapReduce、Oozie、Azkaban等。
四是數據查詢分析,這個根據你的業(yè)務數據需求,比如說現在應用形式也很應用范圍完全成熟的有商城產品信息推送、頭條新聞定時推送、廣告推送等等,大都以積攢用戶歷史信息只有那去結論,應用方法到的技術有Hive、Impala、Spark、Nutch、Solr、Elasticsearch等,其實還有一個一些機器學習語言,機器學習算法如貝葉斯、邏輯回歸、決策樹、神經網絡和協同過濾等等。
五是數據可視化,這也是數據分析的到了最后目的,該如何去好的呈現你的數據,使你的數據變得有價值不是你做這個分析平臺的制高點,當下應用形式比較成熟的技術有BI Tableau、Qlikview、PowrerBI、SmallBI等。
歸納過來應該是你不需要基于分析什么,簡單要有來源,接著要有方法,主要要有目的,最后你要面向用戶,這可能會是個漫長而艱辛而又你的心性技術的過程,人力物力環(huán)境時間都將很可能是你的無法應付的難題。
以下圖片來源于網絡
為什么貝葉斯定理能夠廣泛應用于醫(yī)療診斷、風險預測、機器學習、人工智能等許多領域?
為什么不貝葉斯定理(“逆向運動概率”問題)目前能廣泛應用于醫(yī)療診斷、風險分析預測、機器學習、人工智能等許多領域?貝葉斯定理相比于比較傳統的“朝概率”問題,有什么優(yōu)勢?而“向這邊概率”問題,在詳細解釋工作、生產等假的問題當中,又有哪些弊端?
貝葉斯定理描述了一種因果關系的概率可以表示。像醫(yī)療中由講究望聞問切的外在表現出的果來回溯病因這種應用正適合來用貝葉斯方法來能解決。
機器學習,人工智能等領域目前的一個主流方法那就是以樣本,大致的說是帶標簽的樣本來訓練模型,這也可以不懷疑是由因果事實來推導過程因果關系(模型)。
所以,從形式上看,貝葉斯定理很比較適合做模型自學,不錯做直觀上再理解。
再說“正向概率”問題,不太理解指的是怎么做這些問題。但不關公面前耍大刀了。