如何抽取网页中的正文内容
把广告链接什么的都去掉,只保留有用的部分。由于每个网页的格式都不一样,我没想到什么好办法,向大家求助
如何抽取网页中的正文内容
同问如何抽取网页中的正文内容
网页正文提取,由于网页格式的千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。另外,有人利用开源的Tidy,把不规范的网页规范化,然后利用DOM Tree,把包含正文的<talbe>...</table>提取出来,然后去除其中的链接信息。
还有一种简单的方法:对网页中的所有<table> ...</table>,计算其中所含内容中的中文标点符号,并结合内容中所包含的链接数,综合判断,以确定到底哪个<table>...</table>最有可能为正文。具体的判断方法,可以通过实验观察来确定。
如何抽取网页中的正文内容
这个规则应该可行如何抽取网页中的正文内容
规则解决不了一切,但是可以解决一大部分问题。如果弄一个马上可以用的,规则是最好的方法。
如果是做研究,自动抽取规则,或者识别网页中的block信息应该是不错方法,目前已经有相关文章了。
如何抽取网页中的正文内容
[quote][b]下面引用由[u]daniel[/u]在 [i]2006/05/11 06:13pm[/i] 发表的内容:[/b]网页正文提取,由于网页格式的千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。
另外,有人 ...
[/quote]
不错的规则,我也做过类似的工作。只不过规则和你的不一样,但是很类似。
如何抽取网页中的正文内容
已经有很多文章了。基于视觉的是比较新的,
不过,基于分块识别的也还可以。
广告部分有比较多的链接。
如何抽取网页中的正文内容
好的!如何抽取网页中的正文内容
正文一般应该是网页中最长的部分,金油条网页正文提取器1.0全新升级
金油条网页正文提取器公开叫板市面上的其它正文提取算法。最新版本和在线演示。详见:
[url]http://www.shoula.net/ParseContent[/url]
已经全新升级成1.0 效果更好。精度默认是20,用于网站的新闻,文章等的正文提取,特别结合蜘蛛用处广泛。由于是一个算法demo,所以没有做过大的功能扩展,编码大部分可以自动识别。 最新版本1.0。 如果要最新版本,或者对这个感兴趣的。 可以和我联系或者加入 QQ群:50453294. QQ:6782435 金油条
页:
[1]