输入复制码,即可复制
关注 公众号 发送 复制码 即可获取
只需要3秒时间
查看: 81|回复: 0

蜘蛛是如何爬行网站的

[复制链接]

37

主题

31

帖子

64

积分

新手

Rank: 2

积分
64
发表于 2014-7-15 16:21 | 显示全部楼层 |阅读模式
  一:什么是蜘蛛Spider?

  我们先来看一下百度百科上是怎么说的:蜘蛛Spider是搜索引擎的一个自动程序。它的作用是访问收集收拾整顿互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库, 使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。8 t. R2 E3 X# S/ o& K& F

  PS:简朴说就是一款抓取互联网信息的程序。

  二:蜘蛛Spider的分类

  1.批量型Spider:有显著的抓取范围和目标,有抓取时间、数据量或固定在范围内页面限制的抓取程序,一般我们使用的采集工具就是这类Spider。

  2.增量型Spider:没有固定目标、范围和时间限制,永无住手地进行抓取,直至把全网的数据抓完为止。目前常见搜索引擎(百度/google等)的Spider都是这类Spider。

  3.垂直型Spider:跟增量型Spider相似,但抓取范围有针对性(如:特定主题、特定内容或特定行业的网页)地抓取。这类Spider一般用于垂直搜索引擎。

  三:蜘蛛Spider的抓取策略

  1.深度优先策略:即一直沿着一条路往下走,走到没路了,再回过头来走另外一条路,如斯类推.

  2.广度优先策略:Spider在一个页面上发现多个连接时,先把这些页面抓一遍,然后再抓从这些页面中提取下来的链接

  此外还有“重要页面优先抓取策略”、“大站优先策略”、“再次抓取更新策略”在这就不逐一说明了,有爱好的朋友可以在网上查看相关资料。

  四:Spider和普通用户的区别

  最后跟大家讲解一下Spider和普通用户浏览一个网站时的区别,由于这块网络上存在良多说法,有些存在一些误区。

  目前一些大型搜索引擎(百度、谷歌等)都表示Spider对网站的抓取行为和普通用户的访问没太大区别。但题目真的区别不大吗?

  用户能看到而Spider不一定能看到的:如:图片中的信息、视频中的内容、FLASH、登陆、注册、回复可见内容等。Spider能看到而用户不一定能看到的:是否有躲藏内容、是否挂黑链等。可见,某种程度上来讲用户与Spider各自所获取到的信息仍是有区别的。

  Spider方面的知识就讲到这了,兴华互联主要是想让一些对Spider不了解的朋友对此有一定的熟悉,如想深入了解Spider方面的知识,可以寻找一些搜索引擎原理方面的书籍、文章来进行深入学习!

本文转载自http://9569.erterdfg.cn
温馨提示:
1、本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

客服QQ/微信
860820528 周一至周日:09:00 - 22:00
十五年老品牌,学习网上创业赚钱,首先阿抖学社,值得信赖!
阿抖学社 版权所有!

本站内容均转载于互联网,并不代表阿抖学社立场!
拒绝任何人以任何形式在本站发表与中华人民共和国法律相抵触的言论!

小黑屋|广告服务|加入vip|APP下载|手机版| 阿抖学社 ( 蜀ICP备14032121号-4 ) |网站地图

GMT+8, 2025-5-29 05:07 , Processed in 0.070866 second(s), 27 queries .

快速回复 返回顶部 返回列表