关于HMM模型
上学期,于师兄已经用HMM模型实现了NE的识别,这学期我接手了师兄的工作。我在使用HMM模型的时候发现了一些问题,现在想和大家讨论一下。HMM模型是统计自然语言中一种很重要的模型,该模型可以表示为一个五元组,即{S,O,P,A,B},S指状态的集合,O指观察值的集合,P指状态的初始概率,A指状态间的转移概率,B指状态与观察值之间的发射概率。
因此,在建立模型的时候,首先要确定状态的集合S以及观察值的集合O。然后根据P,A,B的定义训练出参数。以后的NE识别就完全依靠这三个参数进行。
比如在NE识别中,观察值的集合是指863中的28种词性标记,状态的集合指人名、地名、机构组织名、专有名词以及其它共计17种。一旦这两个集合确定了,根据这两个集合训练出参数之后,识别过程中就不能再增加特征了,特别机械化。而且训练结果完全受语料本身的制约。
像现在NE模型由于完全依靠词性训练,没有借助任何语义或是标志词的信息(事实上我现在还不知道怎么利用这些信息,也不好利用,因为如果将它们作为观察值,一是数量太大了不好确定,二是也很可能会出现数据稀疏的问题,可能结果更糟),所以,比如明显出现了“公司”、“研究所”等字样的,也不能很好的识别。
这一点可能是HMM模型的一个很大的缺点,要提高识别NE的准确率就必须想办法解决这个问题,还要加入其它的信息。我们初步设想是先加入一些规则,不过还没有想好怎么加入。下一步再尝试一些其它方法。
我不知道大家在使用HMM模型的时候有没有发现这个问题,也有可能因为具体问题的差异,它的缺点体现的不明显。
如果大家有什么好方法的话,希望给我一些建议。谢谢!:)
关于HMM模型
请问NE识别是怎么回事?有没有可能在识别过程中, 每次识别了一个新词以后, 把
这个新的词加入到原来的训练过程中, 这样有一种学习功能,
每一次精度都能提高。 这只是我作为一个外行的想法。 如果
很幼稚, 请不要见笑。 哈哈。
关于HMM模型
[这个贴子最后由taozi在 2004/03/28 02:58pm 第 1 次编辑]NE是指命名实体(Named Entity),它的类型可根据具体问题定义。现在我们做的主要是人名、地名、机构名和专有名词。
NE的识别就是从文本中找出以上的四类NE,并标记。
谢谢你给的建议。
我也想过这样做,但是因为HMM模型在训练之前就应该确定好状态,所以在训练的过程中是不能够再加入其它的。所以我觉得对于NE的识别,这个模型缺乏一定的灵活性。
再则,现在的观察值只是考虑的词性,要加入汉字也很困难。
所以,我们要是想加入一些其它的规则的信息,可能必须再做一遍。
具体该怎么做还在考虑,还没有出结果,也只能说到此。
如果你想要更多的了解NE,建议你看看词法版中关于NE的讨论。
关于HMM模型
请你看看我在Research版贴的问题好吗? HMM可以用来做文本分类吗? 比如说确定一篇文章是否是政治类,
财经类, 等等。
还有XML+Probability Tree Automata+HMM能有什么用?
关于HMM模型
如果放弃词性,直接用词作观察值,NE类型作状态行不行?关于HMM模型
但是词的数量太大了啊!且词的出现是不确定的。感觉不好算。我觉得你在HMM模型之前 不就是要先确定出观察值和状态值的集合吗?在训练的过程中能再加入吗?关于HMM模型
我对文本分类和树自动机不太了解,所以对channel5的问题有点力不从心。不过我觉得像channel5说的用HMM进行文本分类,比如确定一篇文章是政治类还是经济类,那么观察值应该是文章的内容,更具体说可能应该是词汇,状态值是政治类或是经济类,理论上应该是可以的。但是,就像现在我遇到的问题一样,词汇的范围太大了。不知道这样做能不能可行。或许还有更好的解决办法。还望大虾指点。
关于HMM模型
我觉得好象确定隐藏马可夫模型里面的隐藏状态和观察状态其实是最难的了(我原来的问题其实就是问怎样在文本分类
里做这个, 不过现在我才意识到)。 确定了状态, 下面
的事情就是纯数学了。
再有, HMM里面的参数集合是不随时间改变的, 这个很不
准确, 是主要的误差来源。
关于HMM模型
其实确定你要选择的状态值和观察值,我觉得是要根据具体问题的。比如NE的状态值就是NE标注,而观察值就要灵活一点了,已知的东西几乎都可以利用,只是看难易了。我也同意你的看法,HMM中确定了状态之后,其余的就是数学计算了。而应用HMM模型就是完全根据已训练出来的参数,不能改了。所以显得机械化。
关于HMM模型
我倒是觉得可以利用词类,比如"公司","研究所"等都是表示机构的名词,如果对这类词能够标出一个细类,如/nj,那么这样的信息不就可以方便的利用了吗。直接用词作观察值数量太大,而且训练时稀疏严重,但词类只有几个,而且做起来可以和原先词性的方法一样,只是等于把词性细化了,而且在标注层只要有训练集就可以标注吧(是吧?),况且到底是“公司”,还是“研究所”,你并不关心,你利用的信息只是这个词表示一个机构。
不过关键是你得统计一下这种词类的资源
个人意见,仅供参考。
关于HMM模型
我想问一下, 在用HMM对词性分类中, 如何理解某一个词性跟上一个词性有关这件事。 难道说我见到的第n个词的词性跟我见到的第n-1个词的词性有关吗?
除非在句子中, 否则我觉得很可能是无关的。
我在想用HMM做文本分类的时候, 可不可以对每个句子都对应一个句类, 然后
从词类推导句类, 再从句类推导文本类。 这样, 整个Markov链的结构很清晰。
但是怎么能定义“句类”呢? 很麻烦。
关于HMM模型
谢谢taliux的建议。像taliux所说,如果用词作为观察值,将使观察值的数量很大。而如果将词性标注再次细化的话,就可以在增加观察值不多的情况下,将像“公司”这样的特征以词性的形式加入。应该会提高准确率,而且代价也不会增加太多。不过,这样做还是会有一些不足的,比如它将使所有的NE识别都仅依赖于词性。这样词性标注结果将直接影响识别结果。我还是觉得应该同时使用多种特征比较好。因为可能某一种特征只能对某种NE的识别效果比较好,但是综合起来将会取长补短。应该效果不错。
近来看的几篇关于NE的论文也体现了这样的思想,就是要利用各种特征来识别NE。因此特征的选择很重要。
关于HMM模型
[这个贴子最后由taozi在 2004/04/04 09:06pm 第 1 次编辑]-------------------------------------------------------------------------------
下面引用由[u]channel5[/u]在 [i]2004/04/01 11:16pm[/i] 发表的内容:[/b]
我想问一下, 在用HMM对词性分类中, 如何理解某一个词性跟上一个词性有关
这件事。 难道说我见到的第n个词的词性跟我见到的第n-1个词的词性有关吗?
除非在句子中, 否则我觉得很可能是无关的。
我在想用HMM做 ...
--------------------------------------------------------------------------------
确实是放在句子中训练的,因为有句子才能有词性比较有规律的出现,也只有这样才能体现状态之间的转化关系。
关于HMM模型
[quote][b]下面引用由[u]channel5[/u]在 [i]2004/04/01 11:16pm[/i] 发表的内容:[/b]我想问一下, 在用HMM对词性分类中, 如何理解某一个词性跟上一个词性有关
这件事。 难道说我见到的第n个词的词性跟我见到的第n-1个词的词性有关吗?
[/quote]
当然有关了!假如第n-1个词是动词,那么第n个词是名词的概率就比较大,是助词的概率就相对小一些。HMM就是利用这些信息在加上发射概率、初始概率对词性进行标注的。
关于HMM模型
想具体知道发射概率 如何确定?谢谢关于HMM模型
[这个贴子最后由taozi在 2004/11/21 09:37am 第 2 次编辑]发射概率是指在某个状态观察到某个观察值的概率。举个例子来说,假定在一个房间里有N只瓮,每只瓮里有M衶不同颜色的球。一个试验员根据某一概率分布随机的选择一个初始瓮(对应初始概率),从其中根据 不同颜色的球的概率分布,随机的取一个球,并报告该球的颜色。然后,根据某一概率分布,随机的选择另一只瓮,再从其中根据不同颜色的球的概率分布,随机的取出一个球,并报告球的颜色……对房间外的观察者,可观察的过程是不同颜色的序列,而瓮的序列是不可观察的。
这些瓮对应的就是HMM中的状态,是不可见的。球的颜色对应与HMM的状态的输出符号,即是观察值。从一个瓮转移到另一个瓮对应于状态转换(转移概率),从一只瓮中取球对应于从一个状态输出观察符号,即发射概率。
你可以根据具体情况定义瓮和不同颜色的球。
不知道上面的这个例子能不能帮助你理解。希望和你讨论。:)
关于HMM模型
请问建立HMM的时候观察值概率转移矩阵B的初值怎么求啊?关于HMM模型
我有个问题啊,国内一般是把命名实体识别成为一大类而已,但是具体实现时分开实现的,因为人名,地名,机构名这3类构成主体的识别方法不同.为什么要放在一起识别呢,用一个方法实现呢。人名最成功的,机构名最难了。关于HMM模型
我觉得这只是识别的策略问题,三种NE放到一起识别可能比较简单,但是就像你说的,因为人名和机构名的复杂程度不一样,用同样的方法识别效果也是就不一样了。所以也有人采用不同的方法识别不同的NE。
你都可以试试,识别方法没有定式的。
关于HMM模型
是啊,我是学自然语言,和你们学信息检索提法有点区别,命名实体识别,我们称为未登录词。不过内容和本质是一回事。我通过一段时间研究发现,其实人名,地名,最好和分词过程紧耦合,但是带有特征名的全称机构名其实属于更靠后的东西。最头疼的是简称机构名和新词,请各位在这个问题上赐教。 现在还有人在做这方面的吗?想交流请教一下HMM用于NER中科院张华平博士做得很好
源代码可在[url]http://www.nlp.org.cn/[/url]下载,还有相关论文,也许会对大家有帮助回复 20# chinaboy 的帖子
还有在关注HMM的吗?出来指教.交流一下!谢谢!页:
[1]