网站首页 › seo基础学习 › 搜索引擎底层原理分享，seoer必看

搜索引擎底层原理分享，seoer必看

发布时间：2022-05-11 11:08:21

996

抓取网页

每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider沿着网页中的超链接连续捕获网页。被捕获的网页被称为网页快照。由于互联网中超链接的广泛应用，理论上，绝大多数网页可以从一定范围的网页中收集。

处理网页

搜索引擎抓住网页后，需要做大量的预处理工作来提供搜索服务。其中，最重要的是提取关键字并建立索引文件。其他包括删除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页重要性/丰富度等。

提供检索服务

用户输入关键字进行检索，搜索引擎从索引数据库中找到匹配关键字的网页;除了网页标题和URL此外，还将提供网页摘要等信息。

搜索引擎的自动信息收集功能分为两种。一种是定期搜索，即每隔一段时间(如Google一般28天)，搜索引擎主动派出蜘蛛程序IP搜索地址范围内的互联网站，一旦发现新网站，就会自动提取网站信息，并将网站添加到自己的数据库中。

另一种是提交网站搜索，即网站所有者主动向搜索引擎提交网站。它将蜘蛛程序发送到您的网站，扫描您的网站，并将相关信息存储在数据库中供用户查询。由于近年来搜索引擎索引规则发生了很大的变化，主动提交网站并不能保证你的网站能够进入搜索引擎数据库，所以最好的方法是获得更多的外部链接，让搜索引擎有更多的机会找到你，并自动包含你的网站。

你的网页被搜索引擎索引的越多，用户访问的机会就越多。大多数搜索引擎拒绝提交URL如果你的网站有二级或三级以下网页的索引，4-5级层次， spider不带回网站的所有网页，解决办法之一就是做一个通道页(hallway page)，把你网站的所有链接都放在通道页里。

搜索引擎原理

下面是如何解释搜索引擎?spider如果你有一个网站，你的网站—Chinese food，并向搜索引擎注册了网站的主页，主页是树结构的根，如果主页包含两个链接，分别指向sichuan-food.htm和guangdong-food.htm，这两个网页是第二级，在sichuan-food.htm有链接指向chengdu-food.htm，则chengdu-food.htm第三级，在 chengdu-food.htm有链接指向special-food.htm，则special-food.htm等等第四级。

第一级 index. htm

第二级 sichuan-food.htm和guangdong-food. htm

第三级 chengdu-food. htm

第四级 special-food. htm

大多数搜索引擎拒绝索引二级或三级以下，也就是说，所有第四级网页(包括所有第三级网页)，将不会被搜索引擎找到，除非你直接注册这些网页，但不建议直接注册这些网页，因为它会降低你的排名位置，很容易超过搜索引擎规定的日常注册限制。这就是为什么要制作一个通道页面。

对于同一域名，一些搜索引擎限制了网页的数量，因此建议您根据网页在通道页面中的重要性对链接进行排序。