哈工大信息检索研究室论坛's Archiver

kex 发表于 2007-11-19 22:10

[求助] 关于CRF++模板格式的问题

最近刚开始研究CRF++,用人民日报的语料库。如果直接转换语料库,则每个词后面跟上它的词性,一共也就是2列。写的诸如U00:%x[-2,1] U01:%x[-1,0]U02:%x[-1,1]的模板训练时都会提示出错,而如果把模板写成三列,比如: 图片 n B 这样训练 就没有任何问题。这个到底什么原因!
还有请问使用过CRF++,用人民日报语料训练的诸位,训练预料每行到底要转换成什么格式?是“词 词性 ××”还是什么的?
谢谢!

xxl66 发表于 2008-8-13 11:27

你现在研究得怎么样了,我现在刚刚开始研究crf这个方面,还不是很熟悉,想互相交流下

xzskmust 发表于 2008-8-16 15:01

训练预料每行到底要转换成什么格式?这是由自己决定的。最后一列是目的列。就是说如果你是用来做词性标注的,那么最后一列是词性。如果你是做实体识别。那么最后一列就是实体类别标识。至于你说的训练模板。“最近刚开始研究CRF++,用人民日报的语料库。如果直接转换语料库,则每个词后面跟上它的词性,一共也就是2列。写的诸如U00:%x[-2,1] U01:%x[-1,0]U02:%x[-1,1]的模板训练时都会提示出错,而如果把模板写成三列,比如: 图片 n B 这样训练 就没有任何问题。这个到底什么原因!“。出错的原因是困为你的训练语料只有两列,则在训练模板中不能出现第二列的位置。第二列的是目的列,是用来生成特征的。U02:%x[-1,1]这个模板中出现了第二列的内容,所以会出错。我做的实体标注系统,语实是这样标注的。词 词性 是否人名的姓 是否人名用字 是否地名后缀 是否人名后缀 是否组织机构后缀 实体类型。呵呵


页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.