您可以通过网站日志获得哪些重要信息,下面详细说明:
一、看网站的抓取情况
1、新站刚上线,看搜索引擎是否来你的网站抓取;
2、网站收录异常,或被收录k,您可以通过日志了解搜索引擎是否还有网站光顾您;
3、要解决网站的问题,必须阅读日志;
二、如何查找网站日志?
一般在FTP一个名为logs不同的服务器可能会以不同的日志文件命名,但必须包含logs这个关键词。
三、如何打开日志?
下载解压后,可以用文本编辑器打开。如果打开是乱码,可以用Editplus或dreamweaver等网页编辑器打开。一般我喜欢用光年日志分析工具。
四、各大搜索引擎蜘蛛名称:
打开日志后,我们可以看到以下搜索引擎蜘蛛名称,分别代表哪个搜索引擎去过你的网站。
百度:baiduspider
Google=Googlebot
Msn:msnbot
yahoo:Slurp
yodao:YoudaoBot
sogou:Sogou get spider
360:360Spider
五、拆解日志
在日志中搜索上述蜘蛛的名称,你可以清楚地了解蜘蛛是否来过你的网站,并知道蜘蛛抓住了你的网站页面。从网站上下载的网站日志在txt以下数据可以在文本中看到:
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"
分析:
117.26.203.167 访问ip
02/May/2011:01:57:44 -0700 访问日期 -时区
GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名)/index.php 这个页面(GET表示服务器动作)
500 服务器响应状态码
服务器响应状态码通常有以下几种:200、301、302、304、404、500等。200代表用户成功获取所需文件。如果是搜索引擎,证明蜘蛛在这次爬行中成功发现了一些新内容。301代表用户访问的页面url301重定向(永久性)已经处理好,302是暂时重定向。404代表访问的页面不再存在或访问url这只是个错误。500是服务器的错。
19967 表示19967字节被抓获
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示访问者使用火狐浏览器Alexa Toolbar 等待访问端信息
如果您的日志格式不是这样,则表示日志格式设置不同。
六、网站日志对seo相关信息
不同的服务器或虚拟主机设置不同的日志记录。
有的例如:200 0 3834 237 953 我们可以通过观察更多的记录来判断第三个数字代表字节数。
有的例如:200 0 0或200 0 64 这是没有记录抓取字节数的。注:200 0 0和200 0 64 不代表任何问题。所谓200 0 64代表将被抓取K言论没有根据,一般网站都有64代码。
在日志中,发现更多HTTP状态码为200(正常)、304(无变化)、404(链接错误)。
304代表自上次抓取以来,内容没有更新。一般情况下,网站的图片往往会返回值。
404代表访问的链接是错误的链接。这个错误的链接,一方面来自最初的存在,然后删除了网页,另一方面,它可能不存在,但其他人有这样一个死链接。