您当前的位置: 首页 > 法律

1简介实际上是一种电脑机器人Com

2018-11-05 09:16:00

1.简介 实际上是一种电脑机器人(Computer Robot),电脑机器人是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的机器人程序就象蜘蛛一样在络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的机器人程序就被称为蜘蛛程序。2.作用 通过页的链接地址来寻找页3.工作原理 对于搜索引擎来说,要抓取互联上所有的页几乎是不可能的,从公布的数据来看,容量的搜索引擎也不过是抓取了整个页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的页,有许多页无法从其它页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页 面的平均大小为20K计算(包含图片),100亿页的容量是100&time 蛛只是抓取那些重要的页,而在抓取的时候评价重要性主要的依据是某个页的链接深度。4.抓取策略 广度优先和深度优先5.更新周期 一般来说,络蜘蛛在更新站内容的时候,不用把站页重新抓取一遍,对于大部分的页,只需要判断页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。6.评价指标覆盖率、时效性、重复率

商务净水机
电缆桥架成型机
室内水上乐园
推荐阅读
图文聚焦