有关基于模板的文本信息抽取
大家好! 我最近在研究基于模板的文本信息抽取,从自由文本信息角度来说,首先应该先分词将非有用信息去掉,自己建立模板 在库里对应查找,不知是否有兴趣探讨问题,谢谢!忘跟贴! 分词应该不能够将无用信息去掉吧。 分词之后可以用去除停用词、合并数字和字母来去掉一些无用信息。希望可以参与讨论!交流! 要抽取什么信息呢?是人工构造模板,还是自动构造模板? 现在信息抽取的方法:
是不是除了模版,就是模版呢?
有没有比较通用的一种方法呢? 你要抽取的是全文信息吗? 有没有什么方法可以较好的抽取到能表达文章主题的信息呢? 基于模版的信息抽取方法,模版的人工构建依赖于所抽取的类型;自动构建目前比较困难。
页:
[1]