花火网讯 网络爬虫历史由来是怎么样的,其实一开始仅仅是数据收集,后面才渐渐发展的越来越复杂。网络爬虫最早的用途是服务于搜索引擎的数据收集,而现代意义上的搜索引擎的鼻祖是1990年由加拿大麦吉尔大学(UniversityofMcGill)学生AlanEmtage发明的的Archie。
人们使用FTP服务器共享交流资源,大量的文件散布在各个FTP主机上,查询起来非常不方便。因此,他开发了一个可以按照文件名查找文件的系统,能定期搜集并分析FTP服务器上的文件名信息,自动索引这些文件。工作原理与现在的搜索引擎已经非常接近,依靠脚本程序自动搜索分散在各处FTP主机中的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。
世界上第一个网络爬虫“互联网漫游者”(“wwwwanderer”)是由麻省理工学院(MIT)的学生马休·格雷(MatthewGray)在1993年写成。刚开始,它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在“互联网漫游者”基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。
其后,无数的搜索引擎促使了爬虫越写越复杂,并逐渐向多策略、负载均衡及大规模增量抓取等方向发展。爬虫的工作成果是搜索引擎能够遍历链接的网页,甚至被删除的网页也可以通过“网页快照”的功能访问。
以上就是小编整理的关于爬虫历史的资讯,网络爬虫发展历史久远,可以追溯到1990年。
此文由 网站目录_网站网址收录与提交入口 编辑,未经允许不得转载!: