哈工大信息检索研究室论坛's Archiver

hpttlook 发表于 2008-3-17 11:11

[请教+讨论]

各位牛人好。
我接触分词的时间不长,毕业设计要做这个。
目前我自己写好了正向最大匹配,逆向最大匹配的代码,自己测试了下,发现分词效果不是很好(我使用了机械匹配,自己根据预料库建立了一个词典)。我的初步想法是,利用这两个方法加上对歧义词进行统计,效果能改正一些错误分词,但是对于未登录词,我就不知道怎么办了,按我的程序分出来就会完全切分,成为一个一个的字,有哪位大牛能指点下,怎样对未登录词处理啊,简单点好,毕竟我刚开始接触分词。谢谢了!

另外,问下,分词中,我遇见一个问题,就是标点符号,那么多标点符号,又全角又半角的,怎么去识别标点符号啊?我目前的程序比较死板,只能识别句号(而且是半角的)。

多谢指点啊!!!!!急用啊!!!
有分词程序的,可以共享的情况下,请发到我的邮箱,非常感谢!

[email=hepenglff@163.com]hepenglff@163.com[/email]

hpttlook 发表于 2008-3-17 11:22

各位前辈们啊,赶紧指点指点啊!毫无进展啊

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.