英文词干提取的bug

Mar 15, 2011 at 10:01 AM
Edited Mar 15, 2011 at 10:01 AM

我看到盘古分词用的是Dr. Porter开发的Porter.Stemmer,但貌似用下来有些bug,例如geese, 会被还原为gees而不是goose,结果英文分词变成了:

原文:There are two geese.

分词结果:there(0,3)/There(0,5)/ar(6,2)/are(6,5)/two(10,5)/gees(14,2)/geese(14,5)/

而且结果中有重复,请问是否有其他更好的stemming类库推荐?谢谢!

Coordinator
Mar 15, 2011 at 10:03 PM

Porter.Stemmer 算法只能解决通用形式,特殊形式我做了特殊处理。这个bug我已经改了,请升级到 V2.3.2.2 版本。