首页 > 网络信息采集 > 网页正文提取技术分析
201306月4

网页正文提取技术分析

写作背景

最近做一个项目,其中涉及到网页信息采集,随后对相关的技术进行了学习与研发,网页正文提取技术常用的有joyhtml、boilerpipe、cx-extractor下面将对其做一个简单的对比说明,和大家进行下分享。

相关技术

1、joyhtml: http://code.google.com/p/joyhtml/
JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。

2、boilerpipe: http://code.google.com/p/boilerpipe/
这个Java类库提供算法来探测和删除在一个网页中主文本内容旁多余的重复内容。它已经有提供特殊的策略来处理一些常用的功能如:新闻文章提取

3、cx-extractor:http://code.google.com/p/cx-extractor/

本算法首次将网页正文抽取问题转化为求页面的行块分布函数,并完全脱离HTML标签。通过线性时间建立行块分布函数图,由此图可以直接高效、准确的定位网页正文。同时采用统计与规则相结合的方法来解决系统的通用性问题。

最终选择cx-extractor

理由如下:
简单:java代码不超过400行
准确率高:>95%
算法时间复杂度为线性

文章作者: iitshare
本文地址:http://www.iitshare.com/web-text-extraction-technical-analysis.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

更多
本文目前尚无任何评论.

发表评论