首页 > 网络信息采集 > 基于行块分布函数的通用网页正文抽取算法cx-extractor
201306月4

基于行块分布函数的通用网页正文抽取算法cx-extractor

写作背景

由于项目的需求,最近学习网页信息采集,正文抽取这块儿的技术,发现一款不错的网页正文抽取算法cx-extractor,在此和大家进行下分享。

cx-extractor介绍

对于Web信息检索来说,网页正文抽取是后续处理的关键。

虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现代码不足百行。但量不在多,在法。

建议使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/,svn的好处是更新及时,zip包作者不能保证每次修改完后都及时上传 :)

There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
Bug reports and other feedback are most welcome :-)
基于行块分布函数的通用网页正文抽取算法

如果您正在关注或使用cx-extractor,同时希望在第一时间得到该项目的更新信息,
您可以加入该项目的邮件列表 http://list.qq.com/cgi-bin/qf_invite?id=2a19dc7f75fcba75ee9962adfcf5013e3154e3b92ef767a3

文章作者: iitshare
本文地址:http://www.iitshare.com/universal-web-content-extraction-algorithm.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

更多
本文目前尚无任何评论.

发表评论