[请教+讨论]
各位牛人好。我接触分词的时间不长,毕业设计要做这个。
目前我自己写好了正向最大匹配,逆向最大匹配的代码,自己测试了下,发现分词效果不是很好(我使用了机械匹配,自己根据预料库建立了一个词典)。我的初步想法是,利用这两个方法加上对歧义词进行统计,效果能改正一些错误分词,但是对于未登录词,我就不知道怎么办了,按我的程序分出来就会完全切分,成为一个一个的字,有哪位大牛能指点下,怎样对未登录词处理啊,简单点好,毕竟我刚开始接触分词。谢谢了!
另外,问下,分词中,我遇见一个问题,就是标点符号,那么多标点符号,又全角又半角的,怎么去识别标点符号啊?我目前的程序比较死板,只能识别句号(而且是半角的)。
多谢指点啊!!!!!急用啊!!!
有分词程序的,可以共享的情况下,请发到我的邮箱,非常感谢!
[email=hepenglff@163.com]hepenglff@163.com[/email] 各位前辈们啊,赶紧指点指点啊!毫无进展啊
页:
[1]