中文在線 搜索引擎常用的中文分詞的方法有哪些?
搜索引擎常用的中文分詞的方法有哪些?中文分詞算法可以分為兩類。A.第一類是基于字符串匹配,即掃描字符串。如果發(fā)現(xiàn)字符串的子字符串與單詞相同,則視為匹配。這種分詞方法通常會加入一些啟發(fā)式規(guī)則,如“正向/
搜索引擎常用的中文分詞的方法有哪些?
中文分詞算法可以分為兩類。A.第一類是基于字符串匹配,即掃描字符串。如果發(fā)現(xiàn)字符串的子字符串與單詞相同,則視為匹配。這種分詞方法通常會加入一些啟發(fā)式規(guī)則,如“正向/反向最大匹配”、“長詞優(yōu)先”等。該算法具有分塊速度快、時間復(fù)雜度O(n)、實現(xiàn)簡單、效果可接受等優(yōu)點。也有不足之處,即歧義和生詞處理不好。b、 第二種是基于統(tǒng)計和機器學(xué)習(xí)。這種切分是基于人工標(biāo)注的詞性和統(tǒng)計特征,即根據(jù)觀測數(shù)據(jù)(標(biāo)注語料庫)估計模型參數(shù),即訓(xùn)練。在分割階段,利用該模型計算各種分割的概率,以概率最大的分割結(jié)果作為最終結(jié)果。常見的序列注釋模型有HMM和CRF。這種分詞算法能夠很好地處理歧義和未知詞,分詞效果優(yōu)于前者,但需要大量的人工標(biāo)注數(shù)據(jù),分詞速度慢。
請教一個solr中文搜索中出現(xiàn)的分詞問題?
可能中文分詞有問題。您可以在網(wǎng)頁上測試分詞字段的分詞效果。例如下圖:如果以上效果滿意,就不會有你的問題。但是如果把網(wǎng)站分為“Web”和“station”,那就意味著切分是錯誤的
搜索引擎切分技術(shù)是中文搜索引擎獨有的關(guān)鍵字技術(shù)支持,中文關(guān)鍵字和英文關(guān)鍵字是相關(guān)的關(guān)鍵字之間的區(qū)別是英文單詞和單詞是用空格隔開的,但中文中不存在空格鍵問題。因此,搜索引擎必須將一個完整的句子劃分為小單元關(guān)鍵字和長尾關(guān)鍵字,分詞技術(shù)的效率將直接影響整個搜索引擎系統(tǒng)的搜索結(jié)果顯示效率。