如何向普通人解釋機器學習和數(shù)據挖掘？

2019-05-30

1491

網友解答: 我來談一下機器學習和數(shù)據挖掘的一個方面。一開始我們先來看一個人為設計的場景。假設一個房間里神奇地漂浮著無數(shù)個小球。我們想搞清楚這些小球停留的位置是否存在著一種特定的結構。比方

網友解答:

我來談一下機器學習和數(shù)據挖掘的一個方面。

一開始我們先來看一個人為設計的場景。假設一個房間里神奇地漂浮著無數(shù)個小球。我們想搞清楚這些小球停留的位置是否存在著一種特定的結構。比方說，小球是不是更易集中在某一特定區(qū)域？是不是故意避開某些點位？它們是均勻分布于整個空間嗎？

但是房間一片漆黑，我們什么也看不見。于是我們找來了一部帶閃光燈的照相機，想把漂浮在整個房間的小球都拍下來。

照片猶如下圖一樣：

就算小球的位置之間確實存在某種聯(lián)系，從這張照片上我們也看不出個所以然?？瓷先バ∏蚓拖袷蔷鶆蚍植嫉囊粯?。所以我們嘗試著換了下位置，從新的角度拍下了第二張照片。

照片上的小球看起來還是隨機分布的，沒有任何規(guī)律。讓我們換個高點的角度試試看。

呃，還是看不出有什么規(guī)律來。那我們最后再換個低點的角度試一次。

啊哈，這次有點意思了：看起來小球集中分布在靠近屋頂和地面的兩個區(qū)域，中間這段沒有一個小球。因此，為了發(fā)現(xiàn)這個規(guī)律，我們在拍照時就必須找到一個“好”的角度。如果角度不對，那我們永遠都不可能找出任何規(guī)律。

在上面這個例子中，我們想說的其實是三維數(shù)據點。每個小球的位置都可以由3個數(shù)字來表示，每個數(shù)字分別代表它在XYZ三條軸上的位置。在實際的電腦運算中，數(shù)據點的位置會由更多的數(shù)字組合來表示。醫(yī)院病人的病歷可能會包含500組數(shù)字，包括他的生日年月日、身高、體重、血壓、最近一次的看病記錄、膽固醇指標等等。我們會想要搞清楚不同病人的數(shù)據點之間是否存在某種規(guī)律，如心臟病人的數(shù)據點是否會集中分布？如果數(shù)據點確實會集中分布，當我們發(fā)現(xiàn)新入院病人的數(shù)據點也出現(xiàn)同樣的趨勢時，我們就可以推斷這位病人很可能犯心臟病。當然，實際操作起來肯定不會如此簡單。

一個人是不可能用肉眼看到這些數(shù)據點的。人怎么可能分得清500個維度呢？就像在上面那個例子中，沒有人能看得清“黑屋”中小球，我們也同樣看不見500個維度中的那些數(shù)據點。我們可以用二維圖片來展示位于三維空間中的數(shù)據點，用同樣的方法，我們也可以更低維度的“照片”來表現(xiàn)擁有500個維度的數(shù)據點。

只有從合適的“角度”拍下“照片”，我們才可以從中找出不同數(shù)據點之間的規(guī)律，不然將很難有所發(fā)現(xiàn)。這就是人們所說的如何從“大數(shù)據”中“發(fā)現(xiàn)見解”。

向計算機專家們特別說明一下，我想給非專業(yè)人員解釋清楚主成分分析是怎么一回事。上面的圖片是用專門的軟件制作的。

網友解答:

機器學習

屬于人工智能研究與應用的一個分支領域。機器學習的研究更加偏向理論性，其目的更偏向于是研究一種為了讓計算機不斷從數(shù)據中學習知識，而使機器學習得到的結果不斷接近目標函數(shù)的理論。

機器學習，引用卡內基梅隆大學機器學習研究領域的著名教授Tom Mitchell的經典定義：

如果一個程序在使用既有的經驗E(Experience)來執(zhí)行某類任務T(Task)的過程中被認為是“具備學習能力的”，那么它一定要展現(xiàn)出：利用現(xiàn)有的經驗E，不斷改善其完成既定任務T的性能(Performance)的特質。

數(shù)據挖掘

你可以簡單地理解為，機器學習為數(shù)據挖掘提供了理論方法，而數(shù)據挖掘技術是機器學習技術的一個實際應用。但在這一應用中存在一個很重要的問題需要數(shù)據挖掘專家解決，因為傳統(tǒng)的機器學習算法多是為了處理中小規(guī)模的數(shù)據而設計的，但數(shù)據挖掘面臨的往往是海量的數(shù)據，如果直接使用機器學習的算法可能并不一定能得到令人滿意的效果，因此需要數(shù)據挖掘專家針對具體的問題對機器學習算法進行改造和優(yōu)化。

其次，在進行數(shù)據挖掘時，如何管理海量的數(shù)據，這就需要用到數(shù)據庫的數(shù)據管理技術。

因此，數(shù)據挖掘技術可以簡單看作是運用數(shù)據庫提供的數(shù)據管理技術來獲取數(shù)據，然后再利用改造后的機器學習方法對獲取到的數(shù)據進行學習，學習的結果可以對未來進行預測。

數(shù)據挖掘技術

數(shù)據分析

數(shù)據分析更多的是指從歷史數(shù)據里面發(fā)現(xiàn)有價值的信息，從而提高決策的科學性。數(shù)據分析更側重于通過分析數(shù)據的歷史分布然后從中得出一些有價值的信息。

在對比數(shù)據分析和數(shù)據挖掘時，數(shù)據分析更像是對歷史數(shù)據的一個統(tǒng)計分析過程，比如我們可以對歷史數(shù)據進行分析后得到一個粗糙的結論，但當我們想要深入探索為什么會出現(xiàn)這個結論時，就需要進行數(shù)據挖掘，探索引起這個結論的種種因素，然后建立起結論和因素之間模型，當因素有新的值出現(xiàn)時，我們就可以利用這個模型去預測可能產生的結論。

因此數(shù)據分析更像是數(shù)據挖掘的一個中間過程。

以下給出一個通俗的例子來說明：

虛竹和段譽要決斗了，有人找到星宿老仙，讓星宿老仙預測誰會取得勝利。

虛竹VS段譽

Case1：

星宿老仙做了個統(tǒng)計，發(fā)現(xiàn)兩人曾經共交手過6789次，其中虛竹贏了4567次。

另外，虛竹同喬峰交手，勝率是80%，段譽斗喬峰勝率是60%。星宿老仙得出決斗的趨勢應該是虛竹贏。

因為星宿老仙假設這次勝利跟歷史有關，通過對歷史數(shù)據分析可以得到這里決斗虛竹勝利的概率更大。這就是數(shù)據分析。

數(shù)據分析過程

Case2：

星宿老仙對收集了古往今來各大高手的個人信息和對戰(zhàn)數(shù)據，建立個人信息和對戰(zhàn)結果之間的模型，發(fā)現(xiàn)出身、教育、經驗、婚戀狀態(tài)四個因素是影響成敗的主要因素。

出身貧苦的孩子一般比皇親國戚功夫練得刻苦；

師父越厲害，傳授給徒弟的武功和功力越多，徒弟的功夫會更高；

對戰(zhàn)經驗豐富的人因為擅長利用環(huán)境而獲勝的機會更大；

單身的人在決斗的時候無牽無掛，比非單身的人更放得開，更容易取得勝利。

于是星宿老仙輸入虛竹和段譽的個人信息，虛竹出身貧苦，遇到的名師不亞于段譽，而且打架經驗豐富，并且單身，所以這次打頭，模型預測的結果是虛竹勝。這就是數(shù)據挖掘。

數(shù)據挖掘過程

若要查看更加詳細的內容，可以到作者主頁查看作者之前寫的兩篇文章，希望對大家的學習和理解有所幫助。

《「上」人工智能，機器學習，數(shù)據挖掘，數(shù)據分析和深度學習到底什么意思，它們之間又有什么區(qū)別和聯(lián)系？》

《「下」人工智能，機器學習，數(shù)據挖掘，數(shù)據分析和深度學習到底什么意思，它們之間又有什么區(qū)別和聯(lián)系？》

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

相關推薦