文档文库
手机版
投诉建议
热门搜索:
心得体会
演讲稿
思想汇报
首页
心得体会
学习心得体会
培训心得体会
军训心得体会
社会实践
作风建设
工作心得体会
教育心得体会
演讲稿
演讲稿格式
演讲稿范文
竞聘演讲稿
师德演讲稿
三分钟演讲稿
思想汇报
思想汇报范文
转正思想汇报
大学生思想汇报
季度思想汇报
教师思想汇报
工作计划
工作计划格式
工作计划开头
工作计划结尾
总结与计划
工作计划模板
工作总结
年终工作总结
年度工作总结
个人工作总结
实习报告
实习报告范文
实习计划范文
实习鉴定范文
实习报告内容
个人简历
求职简历
简历范文
简历模板
简历表格
简历格式
祝福语
春节
除夕
元宵
端午节
合同范文
合同范本
合同样本
合同范本格式
首页
>
搜索引擎的工作原理大致可以分为三个阶段
搜索引擎的工作原理大致可以分为三个阶段
发布时间:2024-04-24 18:34:17 来源:
文档文库
小
中
大
字号:
手机查看
搜索引擎的工作原理大致可以分为三个阶段:爬行和抓取、预处理、排名
一、爬行和抓取
搜索引擎用来爬行和访问页面的程序被称为蜘蛛(
spider
)
,也称为机器人(
bot
)
。搜
索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器,
蜘蛛程序发出页面访问请求后,
服务器返回
HTML
代码,蜘蛛程序把收到的代码存入原始页面数据库。为了提高爬行和抓
取速度,搜索引擎都是使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时都会先访问
网站根目录下的
robots.txt
文件,吐过
robots.txt
文件禁止搜索引擎抓取某些文件或者目
录,蜘蛛将遵守协议,不抓取被禁止的网址。所以
robots.txt
文件对一个网站来说是至关
重要的。
为了抓取网上尽量多的页面,搜素引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到
下一个页面,就好像蜘蛛在蜘蛛网上爬行一样,这就是搜素引擎蜘蛛名称的由来。
最简单的爬行遍历策略分为两种:深度优先、广度优先
深度优先:蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返
回到第一个页面,沿着另一个链接再一直往前爬行。
广度优先:蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把
页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。
通常这两种爬行策略时混合使用的。
吸引蜘蛛的方法:
◆提高网站和页面的权重,
◆提高页面更新度,
◆高质量的导入链接,
◆与首页点击距离近
为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有
抓取的页面和已经被抓取的页面。地址库来源:◆人工录入的种子网站,◆蜘蛛从抓取页面
获得的地址库中没有的网址,◆站长通过搜索引擎网页提交表格提交进来的网址
蜘蛛爬行的时候也会进行简单的复制内容检测,如果遇到权重很低的网站上大量转载
或抄袭内容时,很可能不再继续爬行,这也是很多权重低的网站页面更新的很多很快但却
没有被收录的原因之一。
二、预处理
●提取文字:搜索引擎预处理首先要做的就是从
HTNL
文件中去除标签、程序,提取
出可以用于排名处理的网页文字内容
(还包括
META
标签中的文字、
图片替代文字、
FLASH
文件替代文字、链接锚点文字等)
。
●中文分词:这一步在中文搜索引擎中才会用到。中文分词一般分为两类:字典匹配、
基于统计。
字典匹配:将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析
汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。
基于统计:分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现
越多,就越可能形成一个单词。
●去停止词:搜索引擎在索引页面之前会去掉一些停止词,如:
“的”
、
“地”
、
“得”之
本文来源:
https://www.2haoxitong.net/k/doc/ef8f225f8d9951e79b89680203d8ce2f01666574.html
《搜索引擎的工作原理大致可以分为三个阶段.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
文档为doc格式
分享到:
相
关
案
例
正在进行安全检测...
2024-05-06
正在进行安全检测...
2024-05-06
正在进行安全检测...
2024-05-06
正在进行安全检测...
2024-05-06
正在进行安全检测...
2024-05-06
正在进行安全检测...
2024-05-06
正在进行安全检测...
2024-05-06
正在进行安全检测...
2024-05-06
正在进行安全检测...
2024-05-06
安全验证
2024-05-06
相关推荐
1
北师大版小学二年级数学下册全册单元《除法》单元备课教案
2
文件管理系统算法题
3
操作系统的基本特征
4
如何设置计算机的文件权限
5
正在进行安全检测...
6
文件操作的基本步骤
7
上海急诊科模拟题2021年(85)_真题-无答案
8
列举对文件的五种基本操作。
9
操作系统的功能和特点
10
c语言面试常问题
推荐内容
产品技术参数要求
幸福生活阳光成长
使用Python进行文件读写操作
Windows7 X64 X86 封装简单教程
操作规程文件
文件对象的操作方法
【海鸥共享】二级access习题第三章1
卡西欧电子词典说明书
成考专升本属于全日制本科吗
如何设置电脑自动清理垃圾文件