nlp自然語(yǔ)言處理入門(mén) word2vec詞向量怎么來(lái)的？

2021-03-12

1770

word2vec詞向量怎么來(lái)的？2013年，谷歌推出了一款開(kāi)源的word矢量計(jì)算工具word2vec，引起了業(yè)界和學(xué)術(shù)界的關(guān)注。首先，word2vec可以在數(shù)百萬(wàn)個(gè)詞典和數(shù)億個(gè)數(shù)據(jù)集上進(jìn)行有效的訓(xùn)練；

word2vec詞向量怎么來(lái)的？

2013年，谷歌推出了一款開(kāi)源的word矢量計(jì)算工具word2vec，引起了業(yè)界和學(xué)術(shù)界的關(guān)注。首先，word2vec可以在數(shù)百萬(wàn)個(gè)詞典和數(shù)億個(gè)數(shù)據(jù)集上進(jìn)行有效的訓(xùn)練；其次，wordembedding工具的訓(xùn)練結(jié)果可以度量量詞之間的相似度。隨著深度學(xué)習(xí)在自然語(yǔ)言處理中的普及，許多人錯(cuò)誤地認(rèn)為word2vec是一種深度學(xué)習(xí)算法。實(shí)際上，word2vec算法的背后是一個(gè)淺層的神經(jīng)網(wǎng)絡(luò)。需要強(qiáng)調(diào)的另一點(diǎn)是，word2vec是一個(gè)用于計(jì)算worddirector的開(kāi)源工具。當(dāng)我們談到word2vec算法或模型時(shí)，實(shí)際上是指用于計(jì)算wordvector的cbow模型和skip-gram模型。很多人認(rèn)為word2vec是指一種算法或模型，這也是一種謬誤。接下來(lái)，本文將從統(tǒng)計(jì)語(yǔ)言模型入手，詳細(xì)介紹word2vec工具背后算法模型的起源和發(fā)展。本質(zhì)上，word2vec是一個(gè)矩陣分解模型。簡(jiǎn)言之，矩陣描述了每個(gè)單詞和上下文中的一組單詞之間的相關(guān)性。對(duì)矩陣進(jìn)行分解，只取隱藏空間中每個(gè)單詞的向量。

所以word2vec適用于一個(gè)數(shù)據(jù)序列，該序列的本地?cái)?shù)據(jù)之間有很強(qiáng)的相關(guān)性。典型的是文本的順序，相鄰的詞是密切相關(guān)的，甚至一個(gè)詞的上下文都可以大致預(yù)測(cè)中間的詞是什么。所學(xué)習(xí)的詞向量表示詞的語(yǔ)義，可用于分類(lèi)、聚類(lèi)和相似度計(jì)算。另外，word2vec的分層分類(lèi)器或抽樣方法實(shí)際上對(duì)流行項(xiàng)做了大量的懲罰，因此不會(huì)像一般的矩陣分解那樣，語(yǔ)義相似的最后一個(gè)詞就是流行詞，這是word2vec的一個(gè)很好的特點(diǎn)。

對(duì)于短文本分類(lèi)，我們直接在文檔中加入所有的詞向量作為文本特征來(lái)訓(xùn)練分類(lèi)器，效果也很好。該方法也應(yīng)用于word2vec的訓(xùn)練過(guò)程中。另外，如果改用RBF核支持向量機(jī)等非線(xiàn)性分類(lèi)器，分類(lèi)精度會(huì)更高，也符合預(yù)期。

其他序列的數(shù)據(jù)也可以這樣做。我記得去年關(guān)于KDD的文章deepwalk，使用社交網(wǎng)絡(luò)上的隨機(jī)游走來(lái)生成節(jié)點(diǎn)序列，然后使用word2vec來(lái)訓(xùn)練每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的向量。但我用這種方法在QQ社交網(wǎng)絡(luò)上做了一些實(shí)驗(yàn)，發(fā)現(xiàn)效果很不理想，這可能與QQ社交網(wǎng)絡(luò)的復(fù)雜性有關(guān)。

我非常滿(mǎn)意的一個(gè)應(yīng)用程序是將word2vec應(yīng)用到用戶(hù)的應(yīng)用程序下載序列。根據(jù)用戶(hù)的app下載序列，將app視為一個(gè)詞，也可以形成這樣的序列數(shù)據(jù)，然后訓(xùn)練每個(gè)app對(duì)應(yīng)的向量。利用這個(gè)向量來(lái)計(jì)算應(yīng)用之間的相似度，效果非常好。它可以聚合真正與內(nèi)容相關(guān)的應(yīng)用程序，同事可以避免受流行應(yīng)用程序的影響。類(lèi)似的場(chǎng)景應(yīng)該有很多，而且應(yīng)用也很廣泛，比如推薦系統(tǒng)和廣告系統(tǒng)。

word2vec有什么用？

：將一個(gè)熱向量轉(zhuǎn)換為低維單詞向量的層（雖然我們不稱(chēng)它為層，但我認(rèn)為它是一個(gè)層），因?yàn)閣ord2vec的輸入是一個(gè)熱向量。

一個(gè)hot可以看作是1*n的矩陣（n是總字?jǐn)?shù)）。將這個(gè)系數(shù)矩陣（n*m，m是word2vec的字向量維數(shù)）相乘，我們可以得到一個(gè)1*m的向量，它是對(duì)應(yīng)于這個(gè)字的字向量。

因此對(duì)于n*m矩陣，每行對(duì)應(yīng)于每個(gè)單詞的單詞向量。

下一步是進(jìn)入神經(jīng)網(wǎng)絡(luò)，然后通過(guò)訓(xùn)練不斷更新矩陣。

word2vec怎么生成詞向量python？

影響因素很多。例如，我需要花60個(gè)小時(shí)來(lái)訓(xùn)練544m商品標(biāo)題語(yǔ)料庫(kù)。

但是，在版本之后，只需要20分鐘（需要安裝Python）就可以在文本分類(lèi)之前訓(xùn)練word2vec的單詞向量

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

word2vec詞向量怎么來(lái)的？

word2vec有什么用？

word2vec怎么生成詞向量python？

相關(guān)推薦

word2vec詞向量怎么來(lái)的？