把自己之前完成的基于詞典的最大匹配的中文分詞程序修改成基于Lucene。其中包括了3種詞典的組織形式:簡單順序存儲SimpleDictionary,首字Hash詞典HashDictionary,雙重Hash詞典;例外實現了兩種分詞算法:正向最大匹配MaxMatchSegment與反向最大匹配分詞ReverseMaxMatchSegment;最后使用使只需根據需要配置spring的配置文件即可選擇詞典的組織方式與分詞算法組裝成為分詞程序。
運行所需:spring-core.jar lucene-core.jar
希望大家能試用一下我的分詞程序,指出我設計的不足,共同學習。
接下來的目標:完成1、尋找更優的詞典組織 2、統計識別未登錄詞 3、人名識別 4、歧義消除
安徽新華電腦學校專業職業規劃師為你提供更多幫助【在線咨詢】