文章标签 ‘网页正文采集技术’
2013六月4

基于行块分布函数的通用网页正文抽取算法cx-extractor

写作背景 由于项目的需求,最近学习网页信息采集,正文抽取这块儿的技术,发现一款不 …