卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

如何向普通人解釋機器學(xué)習(xí)和數(shù)據(jù)挖掘?

網(wǎng)友解答: 我來談一下機器學(xué)習(xí)和數(shù)據(jù)挖掘的一個方面。一開始我們先來看一個人為設(shè)計的場景。假設(shè)一個房間里神奇地漂浮著無數(shù)個小球。我們想搞清楚這些小球停留的位置是否存在著一種特定的結(jié)構(gòu)。比方

網(wǎng)友解答:

我來談一下機器學(xué)習(xí)和數(shù)據(jù)挖掘的一個方面。

一開始我們先來看一個人為設(shè)計的場景。假設(shè)一個房間里神奇地漂浮著無數(shù)個小球。我們想搞清楚這些小球停留的位置是否存在著一種特定的結(jié)構(gòu)。比方說,小球是不是更易集中在某一特定區(qū)域?是不是故意避開某些點位?它們是均勻分布于整個空間嗎?

但是房間一片漆黑,我們什么也看不見。于是我們找來了一部帶閃光燈的照相機,想把漂浮在整個房間的小球都拍下來。

照片猶如下圖一樣:

就算小球的位置之間確實存在某種聯(lián)系,從這張照片上我們也看不出個所以然。看上去小球就像是均勻分布的一樣。所以我們嘗試著換了下位置,從新的角度拍下了第二張照片。

照片上的小球看起來還是隨機分布的,沒有任何規(guī)律。讓我們換個高點的角度試試看。

呃,還是看不出有什么規(guī)律來。那我們最后再換個低點的角度試一次。

啊哈,這次有點意思了:看起來小球集中分布在靠近屋頂和地面的兩個區(qū)域,中間這段沒有一個小球。因此,為了發(fā)現(xiàn)這個規(guī)律,我們在拍照時就必須找到一個“好”的角度。如果角度不對,那我們永遠都不可能找出任何規(guī)律。

在上面這個例子中,我們想說的其實是三維數(shù)據(jù)點。每個小球的位置都可以由3個數(shù)字來表示,每個數(shù)字分別代表它在XYZ三條軸上的位置。在實際的電腦運算中,數(shù)據(jù)點的位置會由更多的數(shù)字組合來表示。醫(yī)院病人的病歷可能會包含500組數(shù)字,包括他的生日年月日、身高、體重、血壓、最近一次的看病記錄、膽固醇指標(biāo)等等。我們會想要搞清楚不同病人的數(shù)據(jù)點之間是否存在某種規(guī)律,如心臟病人的數(shù)據(jù)點是否會集中分布?如果數(shù)據(jù)點確實會集中分布,當(dāng)我們發(fā)現(xiàn)新入院病人的數(shù)據(jù)點也出現(xiàn)同樣的趨勢時,我們就可以推斷這位病人很可能犯心臟病。當(dāng)然,實際操作起來肯定不會如此簡單。

一個人是不可能用肉眼看到這些數(shù)據(jù)點的。人怎么可能分得清500個維度呢?就像在上面那個例子中,沒有人能看得清“黑屋”中小球,我們也同樣看不見500個維度中的那些數(shù)據(jù)點。我們可以用二維圖片來展示位于三維空間中的數(shù)據(jù)點,用同樣的方法,我們也可以更低維度的“照片”來表現(xiàn)擁有500個維度的數(shù)據(jù)點。

只有從合適的“角度”拍下“照片”,我們才可以從中找出不同數(shù)據(jù)點之間的規(guī)律,不然將很難有所發(fā)現(xiàn)。這就是人們所說的如何從“大數(shù)據(jù)”中“發(fā)現(xiàn)見解”。

向計算機專家們特別說明一下,我想給非專業(yè)人員解釋清楚主成分分析是怎么一回事。上面的圖片是用專門的軟件制作的。

網(wǎng)友解答:

機器學(xué)習(xí)

屬于人工智能研究與應(yīng)用的一個分支領(lǐng)域。機器學(xué)習(xí)的研究更加偏向理論性,其目的更偏向于是研究一種為了讓計算機不斷從數(shù)據(jù)中學(xué)習(xí)知識,而使機器學(xué)習(xí)得到的結(jié)果不斷接近目標(biāo)函數(shù)的理論。

機器學(xué)習(xí),引用卡內(nèi)基梅隆大學(xué)機器學(xué)習(xí)研究領(lǐng)域的著名教授Tom Mitchell的經(jīng)典定義:

如果一個程序在使用既有的經(jīng)驗E(Experience)來執(zhí)行某類任務(wù)T(Task)的過程中被認為是“具備學(xué)習(xí)能力的”,那么它一定要展現(xiàn)出:利用現(xiàn)有的經(jīng)驗E,不斷改善其完成既定任務(wù)T的性能(Performance)的特質(zhì)。

數(shù)據(jù)挖掘

你可以簡單地理解為,機器學(xué)習(xí)為數(shù)據(jù)挖掘提供了理論方法,而數(shù)據(jù)挖掘技術(shù)是機器學(xué)習(xí)技術(shù)的一個實際應(yīng)用。但在這一應(yīng)用中存在一個很重要的問題需要數(shù)據(jù)挖掘?qū)<医鉀Q,因為傳統(tǒng)的機器學(xué)習(xí)算法多是為了處理中小規(guī)模的數(shù)據(jù)而設(shè)計的,但數(shù)據(jù)挖掘面臨的往往是海量的數(shù)據(jù),如果直接使用機器學(xué)習(xí)的算法可能并不一定能得到令人滿意的效果,因此需要數(shù)據(jù)挖掘?qū)<裔槍唧w的問題對機器學(xué)習(xí)算法進行改造和優(yōu)化。

其次,在進行數(shù)據(jù)挖掘時,如何管理海量的數(shù)據(jù),這就需要用到數(shù)據(jù)庫的數(shù)據(jù)管理技術(shù)。

因此,數(shù)據(jù)挖掘技術(shù)可以簡單看作是運用數(shù)據(jù)庫提供的數(shù)據(jù)管理技術(shù)來獲取數(shù)據(jù),然后再利用改造后的機器學(xué)習(xí)方法對獲取到的數(shù)據(jù)進行學(xué)習(xí),學(xué)習(xí)的結(jié)果可以對未來進行預(yù)測。

數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)分析

數(shù)據(jù)分析更多的是指從歷史數(shù)據(jù)里面發(fā)現(xiàn)有價值的信息,從而提高決策的科學(xué)性。數(shù)據(jù)分析更側(cè)重于通過分析數(shù)據(jù)的歷史分布然后從中得出一些有價值的信息。

在對比數(shù)據(jù)分析和數(shù)據(jù)挖掘時,數(shù)據(jù)分析更像是對歷史數(shù)據(jù)的一個統(tǒng)計分析過程,比如我們可以對歷史數(shù)據(jù)進行分析后得到一個粗糙的結(jié)論,但當(dāng)我們想要深入探索為什么會出現(xiàn)這個結(jié)論時,就需要進行數(shù)據(jù)挖掘,探索引起這個結(jié)論的種種因素,然后建立起結(jié)論和因素之間模型,當(dāng)因素有新的值出現(xiàn)時,我們就可以利用這個模型去預(yù)測可能產(chǎn)生的結(jié)論。

因此數(shù)據(jù)分析更像是數(shù)據(jù)挖掘的一個中間過程。

以下給出一個通俗的例子來說明:

虛竹和段譽要決斗了,有人找到星宿老仙,讓星宿老仙預(yù)測誰會取得勝利。

虛竹VS段譽

Case1:

星宿老仙做了個統(tǒng)計,發(fā)現(xiàn)兩人曾經(jīng)共交手過6789次,其中虛竹贏了4567次。

另外,虛竹同喬峰交手,勝率是80%,段譽斗喬峰勝率是60%。星宿老仙得出決斗的趨勢應(yīng)該是虛竹贏。

因為星宿老仙假設(shè)這次勝利跟歷史有關(guān),通過對歷史數(shù)據(jù)分析可以得到這里決斗虛竹勝利的概率更大。這就是數(shù)據(jù)分析。

數(shù)據(jù)分析過程

Case2:

星宿老仙對收集了古往今來各大高手的個人信息和對戰(zhàn)數(shù)據(jù),建立個人信息和對戰(zhàn)結(jié)果之間的模型,發(fā)現(xiàn)出身、教育、經(jīng)驗、婚戀狀態(tài)四個因素是影響成敗的主要因素。

出身貧苦的孩子一般比皇親國戚功夫練得刻苦;

師父越厲害,傳授給徒弟的武功和功力越多,徒弟的功夫會更高;

對戰(zhàn)經(jīng)驗豐富的人因為擅長利用環(huán)境而獲勝的機會更大;

單身的人在決斗的時候無牽無掛,比非單身的人更放得開,更容易取得勝利。

于是星宿老仙輸入虛竹和段譽的個人信息,虛竹出身貧苦,遇到的名師不亞于段譽,而且打架經(jīng)驗豐富,并且單身,所以這次打頭,模型預(yù)測的結(jié)果是虛竹勝。這就是數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘過程

若要查看更加詳細的內(nèi)容,可以到作者主頁查看作者之前寫的兩篇文章,希望對大家的學(xué)習(xí)和理解有所幫助。

《「上」人工智能,機器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)分析和深度學(xué)習(xí)到底什么意思,它們之間又有什么區(qū)別和聯(lián)系?》

《「下」人工智能,機器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)分析和深度學(xué)習(xí)到底什么意思,它們之間又有什么區(qū)別和聯(lián)系?》

標(biāo)簽: