doc2vec文本相似度 歐氏距離和余弦相似度的區(qū)別是什么?
歐氏距離和余弦相似度的區(qū)別是什么?兩者都用來評估個(gè)體之間的差異。歐氏距離測量受不同單位標(biāo)度(如秒和毫秒)的影響,因此需要首先對其進(jìn)行標(biāo)準(zhǔn)化??臻g向量余弦角的相似度不受索引尺度的影響,余弦值區(qū)間為[-1
歐氏距離和余弦相似度的區(qū)別是什么?
兩者都用來評估個(gè)體之間的差異。歐氏距離測量受不同單位標(biāo)度(如秒和毫秒)的影響,因此需要首先對其進(jìn)行標(biāo)準(zhǔn)化??臻g向量余弦角的相似度不受索引尺度的影響,余弦值區(qū)間為[-1,1]。
歐幾里德距離是我們通常所說的兩點(diǎn)線性距離,即n維空間中兩點(diǎn)之間的實(shí)際距離。歐氏距離越小,相似度越大。
余弦相似性通過向量空間中兩個(gè)向量夾角的余弦值來度量兩個(gè)個(gè)體之間的差異。應(yīng)注意兩個(gè)向量在方向上的差異,而不是距離或長度上的差異。兩個(gè)向量越相似,角度越小,余弦值越大。
從下面的三維坐標(biāo)系圖可以看出,歐幾里德距離dis(a,b)測量空間中每個(gè)點(diǎn)的絕對距離,它與每個(gè)點(diǎn)的絕對坐標(biāo)有關(guān),反映了距離的差異。余弦距離(COSθ)度量的是空間矢量的角度,它反映的是方向(維數(shù))的差異,而不是距離或值。
例如,a股(400800)從400漲到800,B股(4,8)從4漲到8,B股(4,8),兩者都漲了50%。如果要對股票的漲幅進(jìn)行度量,可以通過余弦相似度度量發(fā)現(xiàn)a/B股票具有很高的相似度(相同)。如果要度量股票的價(jià)值,就需要用歐幾里德距離來度量。我們發(fā)現(xiàn)a股的價(jià)值顯著高于B股,a股與B股的相似度較低。
如何用python計(jì)算文本的相似度?
第1步:將每個(gè)網(wǎng)頁文本分成單詞,形成單詞包。第三步:統(tǒng)計(jì)網(wǎng)頁(文檔)總數(shù)M。第三步:統(tǒng)計(jì)第一個(gè)網(wǎng)頁n中的字?jǐn)?shù),計(jì)算第一個(gè)網(wǎng)頁的第一個(gè)字在網(wǎng)頁n中出現(xiàn)的次數(shù),然后計(jì)算出該字在所有文檔M中出現(xiàn)的次數(shù),則該字的TF IDF為:n/n*1/(M/M)(還有其他規(guī)范化公式,這里是最基本、最直觀的公式)。第四步:重復(fù)第三步計(jì)算網(wǎng)頁中所有單詞的TF-IDF。第五步:重復(fù)第四步計(jì)算所有網(wǎng)頁中每個(gè)單詞的TF-IDF值。三。用戶查詢處理的第一步:用戶查詢的分詞。第二步是根據(jù)web數(shù)據(jù)庫(文檔)的數(shù)據(jù)計(jì)算用戶查詢中每個(gè)詞的TF-IDF值。4余弦相似度用于計(jì)算用戶查詢與每個(gè)網(wǎng)頁之間的夾角。角度越小,越相似。