Skip to content

Glacier759/newsEyeSpider

Repository files navigation

newsEyeSpider

抓取各报社报纸信息-采用配置文件形式实现的一个简单的可定制爬虫

#项目说明

为采集各大报社报刊信息所做的网络爬虫

考虑到项目的可扩展性采用配置文件形式实现可定制

用户可依据增添配置文件项来扩展爬虫所抓取的信息

2014-09-26 当前仅实现获取信息

2014-09-26 使用log4j记录日志信息

2014-09-27 使用mybatis进行数据库操作

#配置文件说明

过滤规则采用了Jsoup的过滤形式

例如

a[id=href]过滤出a标签包含有id属性,并且id属性的值为href

div[class]过滤出div标签包含有class属性

table过滤出table标签

更多过滤细节

About

抓取各报社报纸信息-采用配置文件形式实现的一个简单的可定制爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages