算法的三個(gè)基本特征 請(qǐng)各位機(jī)器學(xué)習(xí)大佬幫忙!請(qǐng)問(wèn)有沒(méi)有一種分類算法,可以根據(jù)特征值得重要性來(lái)進(jìn)行訓(xùn)練數(shù)據(jù)?
請(qǐng)各位機(jī)器學(xué)習(xí)大佬幫忙!請(qǐng)問(wèn)有沒(méi)有一種分類算法,可以根據(jù)特征值得重要性來(lái)進(jìn)行訓(xùn)練數(shù)據(jù)?在許多傳統(tǒng)的機(jī)器學(xué)習(xí)實(shí)踐中,除了算法選擇和目標(biāo)函數(shù)外,特征工程應(yīng)該是訓(xùn)練模型中最需要人工干預(yù)的部分。我們可以粗略地
請(qǐng)各位機(jī)器學(xué)習(xí)大佬幫忙!請(qǐng)問(wèn)有沒(méi)有一種分類算法,可以根據(jù)特征值得重要性來(lái)進(jìn)行訓(xùn)練數(shù)據(jù)?
在許多傳統(tǒng)的機(jī)器學(xué)習(xí)實(shí)踐中,除了算法選擇和目標(biāo)函數(shù)外,特征工程應(yīng)該是訓(xùn)練模型中最需要人工干預(yù)的部分。我們可以粗略地理解特征工程,即人們?yōu)橛?xùn)練計(jì)劃找到若干組特征(或合成若干基本特征生成更復(fù)雜的特征),并通過(guò)數(shù)據(jù)處理過(guò)程處理特征值以反饋給訓(xùn)練者。對(duì)于每個(gè)特征的權(quán)重和關(guān)系,訓(xùn)練方案在訓(xùn)練過(guò)程中不斷優(yōu)化,以逼近設(shè)定目標(biāo)函數(shù)的最優(yōu)解。如果訓(xùn)練過(guò)程成功完成,則最終確定每個(gè)特征的權(quán)重和關(guān)系,這些權(quán)重和關(guān)系構(gòu)成訓(xùn)練模型中的各種參數(shù)。因此,如果所有特征(包括關(guān)系)的權(quán)重都是固定的,則根本不需要進(jìn)行任何訓(xùn)練,這意味著您已經(jīng)有了一個(gè)經(jīng)過(guò)訓(xùn)練的模型。當(dāng)然,如果只有一部分特征權(quán)值是固定的,或者只是初始化一個(gè)有利于訓(xùn)練收斂的權(quán)值,或者權(quán)值是固定的,則可以在訓(xùn)練中調(diào)整一些關(guān)系。那是另一回事。
事實(shí)上,特征的選擇和特征的二次處理是一個(gè)非常繁重的過(guò)程,由于人為因素可能會(huì)干擾訓(xùn)練效果。這種干擾,有時(shí)會(huì)造成訓(xùn)練本身的大小偏差。所以,當(dāng)模型愚蠢的時(shí)候,也許人類的干預(yù)會(huì)產(chǎn)生很多積極的效果。然而,隨著模型變得越來(lái)越強(qiáng)大,之前引入的人為干預(yù)過(guò)程往往是模型偏頗、無(wú)法更完美演化的原因。因此,一些新的算法傾向于讓機(jī)器做更多的事情,包括簡(jiǎn)化輸入特征和處理原始特征,甚至避免人工干預(yù)訓(xùn)練過(guò)程。例如,以AI go為例。在阿爾法狗系列之前,很多圍棋人工智能需要很多人工功能。這些人工特征肯定會(huì)讓圍棋人工智能更聰明,但同時(shí),也會(huì)產(chǎn)生各種偏執(zhí)。alpha dog系列將輸入特性簡(jiǎn)化到了極致,只留下了最基本的go規(guī)則,不能刪除。即使是為了避免人為偏差,即使是訓(xùn)練數(shù)據(jù)也不是根據(jù)每個(gè)人的棋局得分,而是完全通過(guò)機(jī)器的自我博弈來(lái)理解和學(xué)習(xí)圍棋,最終“進(jìn)化”成一個(gè)無(wú)敵的圍棋神。特征選擇和特征提取是特征工程中的兩個(gè)重要問(wèn)題。有一種說(shuō)法:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只接近上限。因此,特征工程,特別是特征選擇,在機(jī)器學(xué)習(xí)中起著重要的作用。
在機(jī)器學(xué)習(xí)中,特征選擇也稱為變量選擇、屬性選擇或變量子集選擇。它是指為建立模型而選擇相關(guān)特征子集(即屬性和指標(biāo))的過(guò)程。使用特征選擇技術(shù)有三個(gè)原因:
使用特征選擇技術(shù)的關(guān)鍵假設(shè)是訓(xùn)練數(shù)據(jù)包含許多冗余或不相關(guān)的特征,因此刪除這些特征不會(huì)導(dǎo)致信息丟失。特征選擇是指去除無(wú)關(guān)特征并保留相關(guān)特征的過(guò)程。它也可以看作是從所有特征中選擇最佳特征子集的過(guò)程。本質(zhì)上,這是一個(gè)降維過(guò)程。
特征提取是指將機(jī)器學(xué)習(xí)算法無(wú)法識(shí)別的原始數(shù)據(jù)轉(zhuǎn)化為算法能夠識(shí)別的特征的過(guò)程。例如,圖像由一系列像素(原始數(shù)據(jù))組成,機(jī)器學(xué)習(xí)算法不能直接使用這些像素。然而,如果將這些像素轉(zhuǎn)換成矩陣(數(shù)字特征),則可以使用機(jī)器學(xué)習(xí)算法。
特征選擇與特征提取不同。其實(shí),特征提取就是將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器學(xué)習(xí)算法能夠識(shí)別的數(shù)值特征,并從原始特征中產(chǎn)生新的特征。沒(méi)有降維的概念,也不需要關(guān)心這些特性是否有用。特征選擇是從提取的特征中選擇最優(yōu)的特征子集,常用于許多特征,但樣本(即數(shù)據(jù)點(diǎn))相似的區(qū)域較少。特征選擇應(yīng)用程序的典型用例包括:解析書(shū)面文本和微陣列數(shù)據(jù)。在這些場(chǎng)景中,有數(shù)千個(gè)特性,但只有幾十到幾百個(gè)示例。機(jī)器學(xué)習(xí)是一個(gè)很大的研究方向。特征選擇和數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)的兩個(gè)小分支。特征選擇通常用于分類,以找到最佳特征進(jìn)行分類。數(shù)據(jù)挖掘的目的是利用聚類、頻繁項(xiàng)集、分類等算法從數(shù)據(jù)中提取重要信息