預處理網頁文本的方法有幾種?

 xinwen   2020-03-26 17:34   120 人閱讀  0 條評論

分詞算法概述

根據語言的連續性,分詞方法有所不同:英語分詞和英語文本中相鄰的兩個單詞之間用空格或標點符號分隔,這是自然的分詞。

英語分詞

它指通過策略恢復英語單詞原型,或將許多基于單詞的變體更改為同一原型。根據語法要求,英語文本單詞有多種轉換形式,通過處理英語單詞分割算法可以得到單詞原型。盡管英語不涉及分詞,但是您可以通過分割短語來獲得更好的結果。 目前,英國劍橋大學計算機實驗室的算法是一種更好的英語分詞算法。

中文分詞

漢語分詞技術屬于自然語言處理技術范疇,是信息檢索和信息挖掘的研究基礎。由于中文文本與西方語言文本不同,它是一系列連續的敲擊單詞的語言,沒有間隙,也就是說,句子中單詞之間沒有空格或分隔符。同時,由于漢語語法復雜,句子結構靈活,同義詞多,因此漢語句子的分割方法也很靈活。 大多數分詞算法都是為中文文本設計的。文本分割過程是指計算機通過程序自動在中文文本中的單詞和單詞之間添加空格,然后根據某些規則將不間斷的單詞序列切成獨立的單詞的過程。 它是選擇和量化中文文本特征的基礎。分詞的準確性將影響后續的文本分類算法。當前,存在三種成熟的分詞算法:基于字典的分詞,基于理解的分詞和基于統計的分詞。

本文地址:http://www.hkdealsale.com/webnews/?id=653
版權聲明:本文為原創文章,版權歸 xinwen 所有,歡迎分享本文,轉載請保留出處!

評論已關閉!