如何向普通人解釋機器學(xué)習(xí)和數(shù)據(jù)挖掘?
網(wǎng)友解答: 我來談一下機器學(xué)習(xí)和數(shù)據(jù)挖掘的一個方面。一開始我們先來看一個人為設(shè)計的場景。假設(shè)一個房間里神奇地漂浮著無數(shù)個小球。我們想搞清楚這些小球停留的位置是否存在著一種特定的結(jié)構(gòu)。比方
我來談一下機器學(xué)習(xí)和數(shù)據(jù)挖掘的一個方面。
一開始我們先來看一個人為設(shè)計的場景。假設(shè)一個房間里神奇地漂浮著無數(shù)個小球。我們想搞清楚這些小球停留的位置是否存在著一種特定的結(jié)構(gòu)。比方說,小球是不是更易集中在某一特定區(qū)域?是不是故意避開某些點位?它們是均勻分布于整個空間嗎?
但是房間一片漆黑,我們什么也看不見。于是我們找來了一部帶閃光燈的照相機,想把漂浮在整個房間的小球都拍下來。
照片猶如下圖一樣:
就算小球的位置之間確實存在某種聯(lián)系,從這張照片上我們也看不出個所以然。看上去小球就像是均勻分布的一樣。所以我們嘗試著換了下位置,從新的角度拍下了第二張照片。
照片上的小球看起來還是隨機分布的,沒有任何規(guī)律。讓我們換個高點的角度試試看。
呃,還是看不出有什么規(guī)律來。那我們最后再換個低點的角度試一次。
啊哈,這次有點意思了:看起來小球集中分布在靠近屋頂和地面的兩個區(qū)域,中間這段沒有一個小球。因此,為了發(fā)現(xiàn)這個規(guī)律,我們在拍照時就必須找到一個“好”的角度。如果角度不對,那我們永遠都不可能找出任何規(guī)律。
在上面這個例子中,我們想說的其實是三維數(shù)據(jù)點。每個小球的位置都可以由3個數(shù)字來表示,每個數(shù)字分別代表它在XYZ三條軸上的位置。在實際的電腦運算中,數(shù)據(jù)點的位置會由更多的數(shù)字組合來表示。醫(yī)院病人的病歷可能會包含500組數(shù)字,包括他的生日年月日、身高、體重、血壓、最近一次的看病記錄、膽固醇指標(biāo)等等。我們會想要搞清楚不同病人的數(shù)據(jù)點之間是否存在某種規(guī)律,如心臟病人的數(shù)據(jù)點是否會集中分布?如果數(shù)據(jù)點確實會集中分布,當(dāng)我們發(fā)現(xiàn)新入院病人的數(shù)據(jù)點也出現(xiàn)同樣的趨勢時,我們就可以推斷這位病人很可能犯心臟病。當(dāng)然,實際操作起來肯定不會如此簡單。
一個人是不可能用肉眼看到這些數(shù)據(jù)點的。人怎么可能分得清500個維度呢?就像在上面那個例子中,沒有人能看得清“黑屋”中小球,我們也同樣看不見500個維度中的那些數(shù)據(jù)點。我們可以用二維圖片來展示位于三維空間中的數(shù)據(jù)點,用同樣的方法,我們也可以更低維度的“照片”來表現(xiàn)擁有500個維度的數(shù)據(jù)點。
只有從合適的“角度”拍下“照片”,我們才可以從中找出不同數(shù)據(jù)點之間的規(guī)律,不然將很難有所發(fā)現(xiàn)。這就是人們所說的如何從“大數(shù)據(jù)”中“發(fā)現(xiàn)見解”。
向計算機專家們特別說明一下,我想給非專業(yè)人員解釋清楚主成分分析是怎么一回事。上面的圖片是用專門的軟件制作的。
網(wǎng)友解答:機器學(xué)習(xí)
屬于人工智能研究與應(yīng)用的一個分支領(lǐng)域。機器學(xué)習(xí)的研究更加偏向理論性,其目的更偏向于是研究一種為了讓計算機不斷從數(shù)據(jù)中學(xué)習(xí)知識,而使機器學(xué)習(xí)得到的結(jié)果不斷接近目標(biāo)函數(shù)的理論。
機器學(xué)習(xí),引用卡內(nèi)基梅隆大學(xué)機器學(xué)習(xí)研究領(lǐng)域的著名教授Tom Mitchell的經(jīng)典定義:
如果一個程序在使用既有的經(jīng)驗E(Experience)來執(zhí)行某類任務(wù)T(Task)的過程中被認為是“具備學(xué)習(xí)能力的”,那么它一定要展現(xiàn)出:利用現(xiàn)有的經(jīng)驗E,不斷改善其完成既定任務(wù)T的性能(Performance)的特質(zhì)。
數(shù)據(jù)挖掘你可以簡單地理解為,機器學(xué)習(xí)為數(shù)據(jù)挖掘提供了理論方法,而數(shù)據(jù)挖掘技術(shù)是機器學(xué)習(xí)技術(shù)的一個實際應(yīng)用。但在這一應(yīng)用中存在一個很重要的問題需要數(shù)據(jù)挖掘?qū)<医鉀Q,因為傳統(tǒng)的機器學(xué)習(xí)算法多是為了處理中小規(guī)模的數(shù)據(jù)而設(shè)計的,但數(shù)據(jù)挖掘面臨的往往是海量的數(shù)據(jù),如果直接使用機器學(xué)習(xí)的算法可能并不一定能得到令人滿意的效果,因此需要數(shù)據(jù)挖掘?qū)<裔槍唧w的問題對機器學(xué)習(xí)算法進行改造和優(yōu)化。
其次,在進行數(shù)據(jù)挖掘時,如何管理海量的數(shù)據(jù),這就需要用到數(shù)據(jù)庫的數(shù)據(jù)管理技術(shù)。
因此,數(shù)據(jù)挖掘技術(shù)可以簡單看作是運用數(shù)據(jù)庫提供的數(shù)據(jù)管理技術(shù)來獲取數(shù)據(jù),然后再利用改造后的機器學(xué)習(xí)方法對獲取到的數(shù)據(jù)進行學(xué)習(xí),學(xué)習(xí)的結(jié)果可以對未來進行預(yù)測。
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)分析數(shù)據(jù)分析更多的是指從歷史數(shù)據(jù)里面發(fā)現(xiàn)有價值的信息,從而提高決策的科學(xué)性。數(shù)據(jù)分析更側(cè)重于通過分析數(shù)據(jù)的歷史分布然后從中得出一些有價值的信息。
在對比數(shù)據(jù)分析和數(shù)據(jù)挖掘時,數(shù)據(jù)分析更像是對歷史數(shù)據(jù)的一個統(tǒng)計分析過程,比如我們可以對歷史數(shù)據(jù)進行分析后得到一個粗糙的結(jié)論,但當(dāng)我們想要深入探索為什么會出現(xiàn)這個結(jié)論時,就需要進行數(shù)據(jù)挖掘,探索引起這個結(jié)論的種種因素,然后建立起結(jié)論和因素之間模型,當(dāng)因素有新的值出現(xiàn)時,我們就可以利用這個模型去預(yù)測可能產(chǎn)生的結(jié)論。
因此數(shù)據(jù)分析更像是數(shù)據(jù)挖掘的一個中間過程。
以下給出一個通俗的例子來說明:
虛竹和段譽要決斗了,有人找到星宿老仙,讓星宿老仙預(yù)測誰會取得勝利。
虛竹VS段譽
Case1:
星宿老仙做了個統(tǒng)計,發(fā)現(xiàn)兩人曾經(jīng)共交手過6789次,其中虛竹贏了4567次。
另外,虛竹同喬峰交手,勝率是80%,段譽斗喬峰勝率是60%。星宿老仙得出決斗的趨勢應(yīng)該是虛竹贏。
因為星宿老仙假設(shè)這次勝利跟歷史有關(guān),通過對歷史數(shù)據(jù)分析可以得到這里決斗虛竹勝利的概率更大。這就是數(shù)據(jù)分析。
數(shù)據(jù)分析過程
Case2:
星宿老仙對收集了古往今來各大高手的個人信息和對戰(zhàn)數(shù)據(jù),建立個人信息和對戰(zhàn)結(jié)果之間的模型,發(fā)現(xiàn)出身、教育、經(jīng)驗、婚戀狀態(tài)四個因素是影響成敗的主要因素。
出身貧苦的孩子一般比皇親國戚功夫練得刻苦;
師父越厲害,傳授給徒弟的武功和功力越多,徒弟的功夫會更高;
對戰(zhàn)經(jīng)驗豐富的人因為擅長利用環(huán)境而獲勝的機會更大;
單身的人在決斗的時候無牽無掛,比非單身的人更放得開,更容易取得勝利。
于是星宿老仙輸入虛竹和段譽的個人信息,虛竹出身貧苦,遇到的名師不亞于段譽,而且打架經(jīng)驗豐富,并且單身,所以這次打頭,模型預(yù)測的結(jié)果是虛竹勝。這就是數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘過程
若要查看更加詳細的內(nèi)容,可以到作者主頁查看作者之前寫的兩篇文章,希望對大家的學(xué)習(xí)和理解有所幫助。
《「上」人工智能,機器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)分析和深度學(xué)習(xí)到底什么意思,它們之間又有什么區(qū)別和聯(lián)系?》
《「下」人工智能,機器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)分析和深度學(xué)習(xí)到底什么意思,它們之間又有什么區(qū)別和聯(lián)系?》