哈工大信息检索研究室论坛's Archiver

dl 发表于 2006-4-3 11:50

如何抽取网页中的正文内容

把广告链接什么的都去掉,只保留有用的部分。
由于每个网页的格式都不一样,我没想到什么好办法,向大家求助

tengzhily 发表于 2006-4-10 11:25

如何抽取网页中的正文内容

同问

daniel 发表于 2006-5-11 18:13

如何抽取网页中的正文内容

网页正文提取,由于网页格式的千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。
另外,有人利用开源的Tidy,把不规范的网页规范化,然后利用DOM Tree,把包含正文的<talbe>...</table>提取出来,然后去除其中的链接信息。
还有一种简单的方法:对网页中的所有<table> ...</table>,计算其中所含内容中的中文标点符号,并结合内容中所包含的链接数,综合判断,以确定到底哪个<table>...</table>最有可能为正文。具体的判断方法,可以通过实验观察来确定。

tengzhily 发表于 2006-5-16 14:13

如何抽取网页中的正文内容

这个规则应该可行

lee 发表于 2006-5-29 17:03

如何抽取网页中的正文内容

规则解决不了一切,但是可以解决一大部分问题。
如果弄一个马上可以用的,规则是最好的方法。
如果是做研究,自动抽取规则,或者识别网页中的block信息应该是不错方法,目前已经有相关文章了。

david 发表于 2006-10-21 09:40

如何抽取网页中的正文内容

[quote][b]下面引用由[u]daniel[/u]在 [i]2006/05/11 06:13pm[/i] 发表的内容:[/b]
网页正文提取,由于网页格式的千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。
另外,有人 ...
[/quote]
不错的规则,我也做过类似的工作。只不过规则和你的不一样,但是很类似。

baobeileaf 发表于 2006-12-6 17:35

如何抽取网页中的正文内容

已经有很多文章了。
基于视觉的是比较新的,
不过,基于分块识别的也还可以。
广告部分有比较多的链接。

laric 发表于 2007-5-8 14:45

如何抽取网页中的正文内容

好的!

hyang 发表于 2007-5-20 18:13

如何抽取网页中的正文内容

正文一般应该是网页中最长的部分,

金油条 发表于 2008-9-11 22:05

金油条网页正文提取器1.0全新升级

金油条网页正文提取器公开叫板市面上的其它正文提取算法。  

最新版本和在线演示。详见:

[url]http://www.shoula.net/ParseContent[/url]

已经全新升级成1.0 效果更好。精度默认是20,用于网站的新闻,文章等的正文提取,特别结合蜘蛛用处广泛。由于是一个算法demo,所以没有做过大的功能扩展,编码大部分可以自动识别。 最新版本1.0。 如果要最新版本,或者对这个感兴趣的。 可以和我联系或者加入 QQ群:50453294. QQ:6782435 金油条

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.