抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider沿着网页中的超链接连续捕获网页。被捕获的网页被称为网页快照。由于互联网中超链接的广泛应用,理论上,绝大多数网页可以从一定范围的网页中收集。
处理网页
搜索引擎抓住网页后,需要做大量的预处理工作来提供搜索服务。其中,最重要的是提取关键字并建立索引文件。其他包括删除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页重要性/丰富度等。
提供检索服务
用户输入关键字进行检索,搜索引擎从索引数据库中找到匹配关键字的网页;除了网页标题和URL此外,还将提供网页摘要等信息。
搜索引擎的自动信息收集功能分为两种。一种是定期搜索,即每隔一段时间(如Google一般28天),搜索引擎主动派出蜘蛛程序IP搜索地址范围内的互联网站,一旦发现新网站,就会自动提取网站信息,并将网站添加到自己的数据库中。
另一种是提交网站搜索,即网站所有者主动向搜索引擎提交网站。它将蜘蛛程序发送到您的网站,扫描您的网站,并将相关信息存储在数据库中供用户查询。由于近年来搜索引擎索引规则发生了很大的变化,主动提交网站并不能保证你的网站能够进入搜索引擎数据库,所以最好的方法是获得更多的外部链接,让搜索引擎有更多的机会找到你,并自动包含你的网站。
你的网页被搜索引擎索引的越多,用户访问的机会就越多。大多数搜索引擎拒绝提交URL如果你的网站有二级或三级以下网页的索引,4-5级层次, spider不带回网站的所有网页,解决办法之一就是做一个通道页(hallway page),把你网站的所有链接都放在通道页里。
搜索引擎原理
下面是如何解释搜索引擎?spider如果你有一个网站,你的网站—Chinese food,并向搜索引擎注册了网站的主页,主页是树结构的根,如果主页包含两个链接,分别指向sichuan-food.htm和guangdong-food.htm,这两个网页是第二级,在sichuan-food.htm有链接指向chengdu-food.htm,则chengdu-food.htm第三级,在 chengdu-food.htm有链接指向special-food.htm,则special-food.htm等等第四级。
第一级 index. htm
第二级 sichuan-food.htm和guangdong-food. htm
第三级 chengdu-food. htm
第四级 special-food. htm
大多数搜索引擎拒绝索引二级或三级以下,也就是说,所有第四级网页(包括所有第三级网页),将不会被搜索引擎找到,除非你直接注册这些网页,但不建议直接注册这些网页,因为它会降低你的排名位置,很容易超过搜索引擎规定的日常注册限制。这就是为什么要制作一个通道页面。
对于同一域名,一些搜索引擎限制了网页的数量,因此建议您根据网页在通道页面中的重要性对链接进行排序。