哈工大信息检索研究室论坛's Archiver

limeng22000 发表于 2008-7-29 19:17

关于Web信息抽取中的问题

Web信息抽取中有两个评价指标:准确率(precision)和召回率(recall)。
这里有三个网页,第一个网页含有2个作者,2个地址;第二个3个作者,3个地址;第三个1个作者,1个地址。
若用程序抽取其中的作者和地址信息,第一个网页的作者和地址各准确抽出1个,第二和第三个网页的作者和地址全部抽取出来了,那么抽取结果的准确率和召回率是多少?

以网页为单位计算的话,三个网页中有两个抽取正确,准确率=召回率=2/3=66.7%。
以抽取项为单位计算的话,准确率=4/4=100%,召回率=4/6=66.7%,即作者项+地址项=6,正确抽取出的作者项+地址项=4。
以抽取个数为单位计算的话,准确率=10/10=100%,召回率=10/12=83.3%,即作者数+地址数=12,正确抽取出的作者数+地址数=10。
我想知道上面的计算哪个对啊?谢谢

BlueJade 发表于 2008-9-15 14:43

准确率和召回率的概念还是比较好理解的


举个例子来说,某文本库中有10篇关于“信息检索”的文档,你在其之上构建了一个检索系统,当你输入:“信息检索”时你的系统返回了8个结果,

1、假如5个是正确的,剩下的3个是错误的,则:
准确率为:5/8
召回率为:5/10

2、假如你的系统返回的8个结果全部都是正确的,则:
准确率为:8/8
召回率为:8/10

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.