交叉熵?fù)p失函數(shù)公式 信息熵是什么?
信息熵是什么?信息熵的概念來源于信息論。信息論奠基人香農(nóng)1948年將熱力學(xué)中的熵引入信息論,提出了信息熵(又稱香農(nóng)熵)。首先,我們需要了解什么是信息。香農(nóng)認(rèn)為信息是消除隨機(jī)不確定性的東西。舉個例子:3
信息熵是什么?
信息熵的概念來源于信息論。信息論奠基人香農(nóng)1948年將熱力學(xué)中的熵引入信息論,提出了信息熵(又稱香農(nóng)熵)。
首先,我們需要了解什么是信息。香農(nóng)認(rèn)為信息是消除隨機(jī)不確定性的東西。舉個例子:32支球隊中誰將贏得世界杯。一開始,如果我們不知道每個隊的情況,那么所有隊的獲勝概率都是相同的1/32。但是一旦我們得到一些信息,比如看之前的世界杯錦標(biāo)賽,我們發(fā)現(xiàn)來自歐洲和南美的球隊贏得了冠軍。有了這些信息,我可以消除一些不確定性,除了南美和歐洲的團(tuán)隊。然后可能還有10支隊伍,所以我猜的概率會變成1/10,大大增加。
信息可以減少事件的不確定性,因此需要更多的信息來確定不確定性事件。維度可以用來度量事件的不確定性,并具有所需的信息量。發(fā)現(xiàn)概率也可以表示事件的不確定性,概率越小,不確定性越大。
根據(jù)上述推理,我們可以用概率來描述事件的信息量。同時,概率越小,信息量越大。給出了信息量I的計算公式,其中p是事件發(fā)生的概率。例如,巴西有三分之一的機(jī)會獲勝。那么相應(yīng)的信息量約為1.58;而日本的中簽概率為1/60,信息量為5.9;可以看出,概率越低,消除不確定性所需的信息就越多。
信息熵實際上是每個事件的加權(quán)平均信息。對于誰將贏得世界杯的事件(x),信息熵是所有參賽隊(x)能贏得的信息量的加權(quán)平均值。
Label smoothing是什么?有何作用?
標(biāo)簽平滑,或標(biāo)簽平滑,是機(jī)器學(xué)習(xí)中的一種模型正則化方法。在分類模型中,通常的過程是先提取特征,然后進(jìn)行全連接層,將輸出映射到分類大小,再進(jìn)行softmax,將結(jié)果映射到0-1,然后用一個熱標(biāo)簽計算交叉熵?fù)p失函數(shù)來訓(xùn)練模型。標(biāo)簽平滑基于兩個原因:1。另外,使用一個熱表達(dá)式會使模型逐漸逼近1,從而對預(yù)測結(jié)果表現(xiàn)出過度自信,這種自信會使模型過度擬合。
2. 在分類模型中,標(biāo)簽通常用一個熱向量來表示,存在過度擬合的風(fēng)險。由于訓(xùn)練集中的訓(xùn)練數(shù)據(jù)往往是有限的,不能真實地反映預(yù)測結(jié)果的真實分布。
特別是在翻譯模型中,當(dāng)預(yù)測單詞時,通常沒有唯一的答案,同一個句子可以對應(yīng)多個翻譯方案。但一個熱點將消除這種可能性,使結(jié)果獨特,并使正確答案和其他答案之間的距離盡可能長。我們希望為每種情況留下預(yù)測的可能性。
然后標(biāo)簽平滑是使一個熱編碼更軟。方法也很簡單。一方面,它減小了1的大小,另一方面,它使0的標(biāo)記變大。加權(quán)先驗分布計算如下:]。如果先驗分布是均勻的,那么u(k)=1/k,k是分類數(shù)。這樣,模型的預(yù)測結(jié)果將同時擬合一個熱點的標(biāo)簽分布和先驗分布,從而提高了模型的泛化能力,降低了過度擬合的風(fēng)險。
人工智能可以實現(xiàn)智能垃圾分類嗎?
這是一個非常好的問題。誠然,人工智能完全可以實現(xiàn)垃圾分類,但它并不是在混合垃圾分類,而是代替人們按分類挨家挨戶收集垃圾,而且每個家庭都可以交納一定的費用。