关于Web信息抽取中的问题
Web信息抽取中有两个评价指标:准确率(precision)和召回率(recall)。这里有三个网页,第一个网页含有2个作者,2个地址;第二个3个作者,3个地址;第三个1个作者,1个地址。
若用程序抽取其中的作者和地址信息,第一个网页的作者和地址各准确抽出1个,第二和第三个网页的作者和地址全部抽取出来了,那么抽取结果的准确率和召回率是多少?
以网页为单位计算的话,三个网页中有两个抽取正确,准确率=召回率=2/3=66.7%。
以抽取项为单位计算的话,准确率=4/4=100%,召回率=4/6=66.7%,即作者项+地址项=6,正确抽取出的作者项+地址项=4。
以抽取个数为单位计算的话,准确率=10/10=100%,召回率=10/12=83.3%,即作者数+地址数=12,正确抽取出的作者数+地址数=10。
我想知道上面的计算哪个对啊?谢谢 准确率和召回率的概念还是比较好理解的
举个例子来说,某文本库中有10篇关于“信息检索”的文档,你在其之上构建了一个检索系统,当你输入:“信息检索”时你的系统返回了8个结果,
1、假如5个是正确的,剩下的3个是错误的,则:
准确率为:5/8
召回率为:5/10
2、假如你的系统返回的8个结果全部都是正确的,则:
准确率为:8/8
召回率为:8/10
页:
[1]