• 《钟馗捉妖记》杨旭文为魔族惨烈“献身” 2019-09-08
  • 导演贾樟柯获2018年日本福冈亚洲文化大奖 2019-08-30
  • 包住内力,在不断变化中寻找契机,可出击可借力亦可卸力。 2019-08-30
  • 云南理发店老板涉嫌杀害女演员因办卡纠纷起杀心 2019-07-29
  • 四川2017年共立案侦办走私犯罪案件51起 2019-07-28
  • 广东院士联合会:“新起点”开启助力广东创新驱动发展“新征程” 2019-07-28
  • 用当代中国马克思主义指导改革发展实践 2019-07-22
  • 起底特大网络盗刷案:数亿人的秘密因一习惯被盗卖 2019-07-22
  • 上饶经开区36个项目集中开工 总投资77.1亿元 2019-07-21
  • 计划经济该怎么定义呢?政府什么都管的经济吗?如果政府什么都管那以现在的政府的能力,能管的了那么多吗?能管得好吗?那还能纯粹叫经济吗?所以政府才强调政府有政府的职 2019-07-21
  • 伊朗终结亚洲球队16场不胜 力压西葡小组第一 2019-07-05
  • 清明五一假期将至 韩国酒店为迎中国游客各出奇招 2019-07-03
  • 端午小长假,恒大绿洲“购房节”福利大“放价”! 2019-07-03
  • “甜蜜定制交友”究竟是什么货色? 2019-07-01
  • 人的本质是利或为利。 2019-07-01
  • 深圳互联网供应商--贝尔利科技
    深圳网站建设、 网站设计、网站改版首选贝尔利深圳网站建设公司
    广西快3直播
    • 联系电话:135-9036-6521
      值班电话:135-9036-6521
    • 建站咨询
      点击我留言
    • 推广咨询
      点击我留言

    解析搜索引擎蜘蛛的爬行和抓取页面的原理

    广西快3直播 www.adi20.com 2018-08-13 06:44:01??文章来源:广西快3直播??责任编辑:Addrion

      “搜索引擎蜘蛛”这个词相信很多人都有点陌生,其实他的意思就是在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。

      今天,广西快3直播贝尔利科技小编就来和大家分享下搜索引擎蜘蛛的爬行和抓取页面的原理。希望对大家有所帮助。
      一、搜索引擎蜘蛛简介
      搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。
     ?、?爬行原理
      搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。
      搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。
      搜索引擎蜘蛛将收到的HTML代码存入搜索引擎的原始页面数据库中。
     ?、?如何爬行
      为了提高搜索引擎蜘蛛的工作效率,通常采用多个蜘蛛并发分布爬行。
      同时,分布爬行还分为两种模式:深度优先和广度优先。
      深度优先:沿着发现的链接一直爬行,直到没有任何链接。
      广度优先:先这一页面上的所有链接爬行完毕之后,才会沿着第二层页面继续这样爬行。
     ?、?蜘蛛必遵守的协议
      搜索引擎蜘蛛在访问网站之前,都会先访问网站根目录下的robots.txt文件。
      搜索引擎蜘蛛不会去抓取robots.txt文件中禁止爬行的文件或目录。
     ?、?常见搜索引擎蜘蛛
      百度蜘蛛:Baiduspider
      谷歌蜘蛛:Googlebot
      360蜘蛛:360Spider
      SOSO蜘蛛:Sosospider
      有道蜘蛛:YoudaoBot,YodaoBot
      搜狗蜘蛛:Sogou News Spider
      必应蜘蛛:bingbot
      Alexa蜘蛛:ia_archiver
      二、如何吸引更多搜索引擎蜘蛛
      互联网信息爆炸,搜索引擎蜘蛛不可能将所有网站的所有链接全部爬行到,那么如何吸引更多的搜索引擎蜘蛛到我们网站上来爬行变得非常重要。
     ?、?导入链接
      无论是外部链接,还是内部链接,只有有导入,才能被搜索引擎蜘蛛知道该页面的存在。所以,多多做外链建设有助于吸引更多蜘蛛来访。
     ?、?页面更新频率
      页面更新频率越高,搜索引擎蜘蛛来访的次数也会越多。
     ?、?网站和页面权重
      整个网站的权重以及某一页面的权重(包括首页也是页面)影响着蜘蛛的来访频率,权重高、权威性强的网站一般都会增加搜索引擎蜘蛛的好感。
     ?、?与首页的距离
      首页>一级目录>二级目录>三级目录>四级目录…很显然,目录越深蜘蛛来访的几率和次数就会越少,因为一般外链都是指向首页的,首页再向下爬行,只会越来越少。
      这里给大家的建议是,做外链的时候,不要只做首页外链,偶尔做一做栏目和聚合页面的外链也还是不错的哦~
      有些时候,URL短,蜘蛛可能也会觉得这个链接的权重哦,所以,最好只做一级栏目,然后就是文章页面。
      三、搜索引擎蜘蛛地址库
      搜索引擎蜘蛛有一个专门的地址库,用来存放已经被发现的URL(已被抓取和未被抓取的都算,只要是被发现的URL都算),这样就不会出现重复爬行和抓取页面的情况了。
     ?、?地址库URL来源
      蜘蛛抓取的页面中发现的新的URL;
      站长后台自主提交的URL;
      站长后台提交的XML地图中的URL;
      站长后台提交的网站URL;
     ?、?对于未被抓取的URL
      对于未被抓取的URL,不管是以什么方式获取的,哪怕是搜索引擎蜘蛛自己发现的,也会先放入地址库中,然后在做统一抓取。
      四、页面数据存储
      搜索引擎蜘蛛将抓取的页面数据会存入搜索引擎的原始页面数据库中,其实,就可以理解为快照中看到的页面数据,和用户看到的是一样的,每一个页面的URL地址都有一个唯一的编号。
      五、复制内容检测
      搜索引擎蜘蛛在爬行的过程中,会进行一定程度的复制内容检测。如果是权重低的网站上,发现了大量的转载或抄袭内容时,可能会停止爬行,这些页面可能也会不抓取与收录。
      但并不是说网站就不能转载,像一些权重很高的平台,哪怕是转载了一篇旧闻排名也可以很好,因为搜索引擎蜘蛛可能会觉得,就算是旧闻可能也是高质量的吧。
      以上这些内容就是今天贝尔利科技小编要和大家分享的内容。感谢大家的阅读!
    责任编辑:Addrion
    ?
  • 《钟馗捉妖记》杨旭文为魔族惨烈“献身” 2019-09-08
  • 导演贾樟柯获2018年日本福冈亚洲文化大奖 2019-08-30
  • 包住内力,在不断变化中寻找契机,可出击可借力亦可卸力。 2019-08-30
  • 云南理发店老板涉嫌杀害女演员因办卡纠纷起杀心 2019-07-29
  • 四川2017年共立案侦办走私犯罪案件51起 2019-07-28
  • 广东院士联合会:“新起点”开启助力广东创新驱动发展“新征程” 2019-07-28
  • 用当代中国马克思主义指导改革发展实践 2019-07-22
  • 起底特大网络盗刷案:数亿人的秘密因一习惯被盗卖 2019-07-22
  • 上饶经开区36个项目集中开工 总投资77.1亿元 2019-07-21
  • 计划经济该怎么定义呢?政府什么都管的经济吗?如果政府什么都管那以现在的政府的能力,能管的了那么多吗?能管得好吗?那还能纯粹叫经济吗?所以政府才强调政府有政府的职 2019-07-21
  • 伊朗终结亚洲球队16场不胜 力压西葡小组第一 2019-07-05
  • 清明五一假期将至 韩国酒店为迎中国游客各出奇招 2019-07-03
  • 端午小长假,恒大绿洲“购房节”福利大“放价”! 2019-07-03
  • “甜蜜定制交友”究竟是什么货色? 2019-07-01
  • 人的本质是利或为利。 2019-07-01
  • 北京pk直播官网 极速赛车开奖结果统一吗 体彩最快开奖直播现场 秒速时时是全国的吗 天津十一选五规则 南南粤风彩36选7开奖结果 福建时时论坛 福彩6+1走势图 吉林省十一选五前三组 极速时时彩是不是有鬼 足球专家预测 vr赛车 一小时多少钱 p62开奖结果走势 新时时彩二星和值玩法 时时彩后2杀号技巧集锦 秒速时时网站是多少