ecrawler
ecrawler(erlang easy crawler)基于erlang otp的crawler实现.
0.1版本,未考虑分布式,主要面向个人或小企业的指定URL的抓取,当然你也可以把它当作一个没有长大的通用crawler.
主要功能及特性如下:
1, 易扩展,高稳定性.
2, 抓取页面可配置:指定域名,指定URL,或regex匹配抓取.
3, 收集的URL实行评分,可动态设置自己的评分算法
4, 抓取深度限制
5, URL是否已经抓取判断
6, Page内容是否已经存在判断
7, 指定数目worker process并行工作
8, DNS缓冲支持
9, Robots协议支持
10, 简单的统计功能
11,错误恢复