罕见的网络爬虫

看网站LOG信息有奇怪的东西混入:

130.211.147.7 - - [23/Nov/2014:15:36:20 +0000] "GET / HTTP/1.0" 200 18701 "-" "NerdyBot"
107.22.83.14 - - [23/Nov/2014:15:13:36 +0000] "GET /robots.txt HTTP/1.1" 200 345 "-" "HubSpot Crawler 1.0 http://www.hubspot.com/"
192.99.107.190 - - [24/Nov/2014:14:49:46 +0000] "GET /robots.txt HTTP/1.1" 200 357 "-" "Mozilla/5.0 (compatible; meanpathbot/1.0; +http://www.meanpath.com/meanpathbot.html)"

搜索了一下,得知:

  • NerdyBot是搜索引擎 http://nerdydata.com/ 的爬虫,这个主要是面向开发者搜索源代码(source code)的引擎。
  • HubSpot Crawler是数字营销公司的爬虫,已经IPO了,连google都投资它了,传说hubspot的企业文化十分令人艳羡。
  • meanpathbot 是付费搜索引擎 http://meanpath.com/ 的爬虫,它的主要客户群是做语义分析/恶意软件及病毒分析/身份防窃保护之类的,免费试用可以点这里

突然觉得,有空写写爬虫也还蛮好玩的...