seo工作者都知道搜索引擎原理,通常是指在万维网上收集数千万到数十亿个网页,并对页面中每个关键词进行索引,从而建立一个索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序,最终按顺序展示出来。搜索引擎工作原理有四个步骤即:爬行,抓取,索引和收录。那么,它们具体是什么呢?下面小编详细和大家介绍下。
1.爬行
爬行是指搜索引擎蜘蛛从已知页面解析出指向URL的链接,然后沿着链接找到新页面的过程。当然,蜘蛛并不是在找到新URL时立即取去爬行抓取新页面。相反,它们将找到的URL存储在待抓取的地址库中。蜘蛛会按照顺序从地址库中提取要抓取的URL。
2.抓取
抓取是搜索引擎蜘蛛从地址库中提取要爬行的URL,访问这个URL,将读取的HTML代码存入数据库。蜘蛛抓取和用户访问浏览器相同,也会在服务器的原始日志中留下记录。
3.索引
索引是指将URL的信息整理并存入数据库,即索引库。当用户搜索时,搜索引擎从索引库中提取URL信息并按顺序显示。索引的英文是index。索引库用于搜索,因此用户可以搜索被索引的URL,而未被索引的URL在用户的搜索结果中不可见。
4.收录
收录和索引之间几乎没有差异,只是收录是从用户的角度来看,搜索时可以找到这个URL,就说明这个URL被收录了,从搜索引擎的角度来看,URL包被收录了,即在索引库中存在的URL的信息。