输入复制码,即可复制
关注 公众号 发送 复制码 即可获取
只需要3秒时间
查看: 74|回复: 0

爬虫与索引

[复制链接]

492

主题

329

帖子

656

积分

小生

Rank: 3Rank: 3

积分
656
发表于 2014-6-21 17:16 | 显示全部楼层 |阅读模式

  爬虫与索引
  我们先看看来自谷歌的爬虫工作的一点内容
抓取是 Googlebot 发现新网页并更新这些网页以将网页添加到 Google 索引中的过程。
我们使用许多计算机来获取(或"抓取")网站上的大量网页。执行获取任务的程序叫做 Googlebot(也被称为漫游器或信息采集软件)。Googlebot 使用算法来进行抓取:计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。
Google 的抓取过程是根据网页网址的列表进行的,该列表是在之前进行的抓取过程中形成的,且随着网站管理员所提供的站点地图数据不断进行扩充。Googlebot 在访问每个网站时,会检测每个网页上的链接,并将这些链接添加到它要抓取的网页列表中。新建立的网站、对现有网站所进行的更改以及无效链接都会被记录下 来,并用于更新 Google 索引。
  也就是如原文所说:
谷歌的爬虫(又或者说蛛蛛)能够抓取你整个网站索引的所有页。
  为什么谷歌上可以搜索整个互联网的内容?因为,他解析并存储了。而更有意思的是,他会为同样的内容建立一个索引或者说分类,按照一定的相关性,针对于某个关键词的内容。
  PageRank对于一个网站来说是相当重要的,只是这个相比也比较复杂。包括其他网站链接向你的网站,以及流量,当然还有域名等等。
 
文章来自: www.sc1616.com,www.ylb7373.com,www.ss8855.com
温馨提示:
1、本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

客服QQ/微信
860820528 周一至周日:09:00 - 22:00
十五年老品牌,学习网上创业赚钱,首先阿抖学社,值得信赖!
阿抖学社 版权所有!

本站内容均转载于互联网,并不代表阿抖学社立场!
拒绝任何人以任何形式在本站发表与中华人民共和国法律相抵触的言论!

小黑屋|广告服务|加入vip|APP下载|手机版| 阿抖学社 ( 蜀ICP备14032121号-4 ) |网站地图

GMT+8, 2025-6-21 04:52 , Processed in 0.052863 second(s), 27 queries .

快速回复 返回顶部 返回列表