当前位置: 首页 » 资讯 » 企业经营 » 网络营销 » 正文

全面了解搜索引擎蜘蛛

放大字体  缩小字体
发布日期:2013-12-19  来源:沙河玻璃网  作者:张跃斌  浏览次数:10862
核心提示:搜索引擎蜘蛛 也叫spider,或机器人,在搜索引擎发展最初,是通过人工来收录信息的,有很多人工编辑每天的工作就是不停的访问internet上的各个网站,然后,把认为较好的网站进行收录。发展到现在,通过人工完成这项任务 明显是不可能的了,internet上的信息量太巨大了,所以 程序员就编写了抓取网上信息的程序,这个程序就叫 蜘蛛,或者网络爬虫,机器人等。


       一、搜索引擎蜘蛛 也叫spider,或机器人,在搜索引擎发展最初,是通过人工来收录信息的,有很多人工编辑每天的工作就是不停的访问internet上的各个网站,然后,把认为较好的网站进行收录。发展到现在,通过人工完成这项任务 明显是不可能的了,internet上的信息量太巨大了,所以 程序员就编写了抓取网上信息的程序,这个程序就叫 蜘蛛,或者网络蜘蛛,机器人等。

引擎蜘蛛是通过链接地址来寻找网页的。搜索引擎蜘蛛名称根据搜索引擎都不同。那它的原理是由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据,可以通过链接的层数来限制网络蜘蛛的爬取。同时页面信息的重要性为客观因素决定了蜘蛛对该网站页面的检索。基于这蜘蛛工作原理,站长都会不自然的增加页面关键词出现次数,虽然对密度产生量的变化,但对蜘蛛而言并没达到一定质的变化,这在搜索引擎优化过程中应该要避免的。

       引擎蜘蛛是一个自动提取网页的程序,是搜索引擎的重要组成部分。作为蜘蛛来讲,就是尽可能多和快地给索引部分输送网页。实现强大的数据支持。引擎蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容.找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去.直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站.那么网络引擎蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

        引擎蜘蛛感兴趣的页面分为三类:

        1.蜘蛛从未抓去过的新页面。
        2.蜘蛛抓去过,但页面内容有改动的页面。
        3.蜘蛛抓取过,但现在已删除了的页面。

 

       二、蜘蛛工作原理

        在互联网中,网页之间的链接关系是无规律的,它们的关系非常复杂。如果一个蜘蛛从一个起点开始爬行,那么它将会遇到无数多的分支,由此生成无数条的爬行路径,如果任其爬行,就有可能永远也爬不到头,因此要对它加以控制,制定其爬行的规则。世界上没有一种蜘蛛能够抓取互联网所有的网页,所以就要在提高其爬行速度的同时.也要提高其爬行网页的质量。

        网络蜘蛛在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响。决定了搜度引擎数据容量的大小,而且网络蜘蛛的好坏直接影响搜索结果页中的死链接(即链接所指「的网页已经不存在)的个数。搜索引擎蜘蛛有深度优先策略和广度优先策略,另外.识别I圾网页,避免抓取重复网页.也是高性能蜘蛛的设计目标。

       蜘蛛的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页。爬三程序不可能抓取所有的网页,因为在抓取的同时.Wet,的规模也在增大,所以一个好的爬三程序一般能够在短时间内抓取更多的网页。一般蜘蛛程序的起始点都选择在一个大型综币性的网站,这样的网站已经涵盖了大部分高质量的站点,蜘蛛程序就沿着这些连接爬行。了爬行过程中,最重要的就是判断一个网页是否已经被爬行过。蜘蛛的运行程序如图6-
所示。

       在蜘蛛开始的时候.需要给蜘蛛输送一个URL列表,这个列表中的URL地址便是蜘蛛的起始位置.蜘蛛从这些URL出发.开始了爬行一直不断地发现新的URL.然后再根据策略爬行这些新发现的URL,如此永远反复下去。一般的蜘蛛都自己建立DNS缓冲.建立NS缓冲的目的是加快URL解析成IP地址的速度。


   二 搜索引擎蜘蛛与网站的交互问题

   搜索引擎技术基础中,蜘蛛爬取到网站中,通常会去检索一个文本文件Robots.txt,通常存放在网站的根目录下,它是专门用来同网络蜘蛛交互用的专用文件。这也就是SEOer老是去屏蔽网站页面不想被搜索引擎抓取的原因,它是一个网站和搜索引擎蜘蛛对话的重要工具,但是蜘蛛是否都遵循站长对其实施的规则呢?其实蜘蛛遵循还是得看蜘蛛出身,素质高的会遵循规则,相反则不遵循。另外在网站中放入一个叫做sitmap.htm的网页,并将它作为网站的入口文件,这也是蜘蛛与网站的交互方法。对于交互性的SEO手段,我们了解了就可以针对性的做出符合搜索引擎的蜘蛛喜好的网站地图。

   页面Meta字段也是站长经常使用的搜索引擎优化技术,这个字段通常会放在文档的头部,很多站点都只是简单的写个允许百度抓取的字段,正不正确笔者不清楚,SEO其实很多现象都是基于数据分析对比才能得知。Meta字段蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免将无效的网页取下来后又将其废弃而造成无谓的浪费。

   三 搜索引擎蜘蛛对于文件的处理

   (一)二进制文件处理
   网络中除了HTML文件和XML文件外,也有大量的二进制文件,搜索引擎对二进制文件采用单独处理的方式,其对内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标题或是基本内容,也就是通常所说的锚文字这就是为什么我们要对网站锚文字的分析选择的原因所在。
   (二)脚本文件的处理
   网页中的客户端脚本,当网页加载至读取到该脚本,搜索引擎往往会直接省略对它的处理。但是由于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,对它的分析处理往往会采用另外一种网页检索程序,由于脚本程序复杂和多样性,通常站长会根据自身网站将这些脚本存放到一个文档中,采用调用技术,从而加快页面加载速度,同时蜘蛛也不能对调用文件分析处理。这也属于搜索引擎优化技术,如果忽略了对它的处理将会是一项巨大的损失。
   (三)不同文件类型处理
   对于网页内容的提取分析一直是网络蜘蛛的重要技术环节,这也是SEO需要去了解的搜索引擎技术,这取决于网站信息更新的多样性。这也就是为什么专业网站上会在网站内附有下载的execl,pdf等各种文件类型,这也是属于搜索引擎优化过程中需要注意的。网上不同文件类型文件的处理,网络蜘蛛通常是采用插件的方式来处理。如果有能力,网站信息内容的更新尽可能采取多样性,来帮助网站达到一个搜索信息多样化的SEO体系。

   四 搜索引擎蜘蛛的策略分析

   (一)搜索策略
   搜索策略一般有深度优先的搜索策略和广度优先的搜索策略两种。
   广度优先的搜索策略一般被认为是盲目的搜索。它是一种以搜索更多的网页为优先的一种贪婪的搜索策略。只要有东西检索,它就抓取。它会先读取一个文档,保存下文档上的所有链接,然后读取所有这些链接文档,并依次进行下去。

   深度优先的搜索策略网络蜘蛛程序分析一个文档,并取出它的第一个链接所指的文档继续分析,然后如此继续下去。这样的搜索策略达到了网站结构的分析,以及页面链接深度分析,从而传达网站信息。

   还有网络上说的算法,如Hash算法,遗传算法等都是基于搜索引擎核心技术,这些也可以去了解下,比如最新的熊猫算法,这也是基于搜索策略的一种新算法,谷歌对其已经更新好几次了。

   (二)更新策略

   以网页变化的周期为依据,只对那些经常变化的网页做更新操作也是一些小型的搜索引擎常采用的方法。这也就是为什么站长会每个几周对网站页面内容的一个小更新,这是基于搜索引擎优化的技术。网络蜘蛛也经常采用个体更新的策略。它是以个别网页的变化频率来决定对网页的更新频率,这样一来基本上每个网页都会有一个独立的更新频率。

seo

   基于对搜索引擎原理了解的SEOer来提升搜索引擎优化技术,这也是一种SEO技术。搜索引擎优化过程当中自然就能做到自己在做什么,为什么要这样做,而不是只会发外链的机械操作者。SEO技术其实都不难,只要网站优化做的多了,自然而然就可以得心应手了,加油,SEO!


       参考:百度蜘蛛 官方说明:http://www.baidu.com/search/spider.htm
 
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 
沙河玻璃网版权与免责声明:

①凡本网注明来源:沙河玻璃网www.shaheglass.com的所有文字、图片和音视频稿件,版权均为沙河玻璃网独家所有,任何媒体、网站或个人在转载使用时必须注明来源沙河玻璃网www.shaheglass.com违反者本网将依法追究责任。 ②本网转载并注明其他来源的稿件,是本着为读者传递更多信息目的,并不意味着赞同其观点或证实其内容的真实性。其他媒体、网站或个人从本网转载使用时,必须保留本网注明的稿件来源,禁止擅自篡改稿件来源,并自负版权等法律责任。违反者本网也将依法追究责任。 ③ 如本网转载稿涉及版权等问题,请作者一周内来电或来函联系。