【中关村在线软件资讯】11月10日消息:一名开发者汇报,发现苹果在秘密使用网络爬虫抓取互联网上的HTML内容,不过他不能确定苹果这么做的目的。目前不能确定是苹果官方的行为,还是员工自己写的一个测试软件。如果是苹果官方的,也许暗示苹果正在秘密改善OS X 10.10和iOS8的Spotlight网络搜索功能,该功能让用户不需要打开谷歌或Bing搜索网站。
OS X Mavericks
苹果的网络爬虫使用谷歌的Go语言编写,最早可以追溯到10月15日。其他开发者也纷纷报告,发现了苹果的网络爬虫踪迹,它只请求网站的HTML内容,不访问CSS,JavaScript或者图片文件。
苹果的网络爬虫使用Mozilla/5.0(compatible;Fetcher/0.1)的身份。来自17.开头的IP地址,而这正是苹果的服务器所在。虽然苹果不和谷歌,微软竞争,但是也在Siri里面提供了一定的信息,这样就不需要显示Bing的搜索结果了。
网络爬虫是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。