網(wǎng)站優(yōu)化seo中需要注意的百度的中文分詞三點原理

2020-06-28

1163

百度中文分詞算法：指搜索引擎為了更好的辨別用戶的需求，并且為了快速提供給用戶需求性信息而使用的算法。搜索引擎要在單位時間內(nèi)處理千萬億級的頁面數(shù)據(jù)量，因此搜索引擎擁有一個中文詞庫。比如百度現(xiàn)在大約有9萬

百度中文分詞算法：指搜索引擎為了更好的辨別用戶的需求，并且為了快速提供給用戶需求性信息而使用的算法。

搜索引擎要在單位時間內(nèi)處理千萬億級的頁面數(shù)據(jù)量，因此搜索引擎擁有一個中文詞庫。比如百度現(xiàn)在大約有9萬個中文詞，那么搜索引擎就可以對千億級的頁面進行分析，按照中文詞庫進行了分類。

百度分詞基本有三種分法

1、基于理解：傻瓜式匹配，小于等于3個中文字符百度是不進行切詞的，比如搜索大學(xué)堂。

2、基于統(tǒng)計：百度把一個詞標紅的原因：標紅的詞一般是一個關(guān)鍵詞，你搜索學(xué)字的時候，百度它自認的把學(xué)習(xí)也當成了一個關(guān)鍵詞，所以出現(xiàn)學(xué)習(xí)這個詞標紅，這就是百度分詞法：基于統(tǒng)計分詞。

3、基于字符串匹配（百度的分詞法：正向最大切詞法）

最大與最小（最大匹配：一直匹配到?jīng)]詞可配；最小匹配：匹配出詞了就停止匹配，再從另一個詞開始匹配）比如：百度搜索湖南大學(xué)堂屋頂，百度的一個分詞算法我們把它當成一個黑盒子，我們通過一些輸入關(guān)鍵詞，根據(jù)百度的輸出結(jié)果來判定百度的分詞算法。正向與反向（正向：從前往后配；反向：從后往前配）（湖南大學(xué)堂屋頂）正向分法：湖南大學(xué) 堂屋頂（劉強大地方法）正向分法：劉強大地方法。反向分法：方法大地劉強。而在這個詞語當中大地不是一個詞。

另外，切詞原理：百度有專有詞庫（是不可分割的）比如杰出人物（如：毛澤東）明星（如：劉德華）檢索量大的詞（如：買票難）。

當然這些只是百度中文分詞原理的一部分，也不是全對。因為百度算法是不可能透露出來，商業(yè)機秘如果讓你知道，那豈不是有N多的百度了。

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

相關(guān)推薦