当前位置:主页 > 新闻资讯 >

>告诉你研究日志文件在优化初期的重要性

发表日期:2012-09-19 10:08文章编辑:未知浏览次数: 标签:潍坊建网站,潍坊网站推广,潍坊seo,潍坊做网   

 在很多站长论坛发现有很多朋友在询问,为什么没有快照,为什么不收录,其实在那里盲目提问的时候,你有没有花点时间用在研究自己站点的日志文件上,日志文件里包含太多的隐藏信息,只要你用心查看,就会发现,所以找到问题关键,才是解决问题必要前提条件。

  我们具体来说一说我们所遇到的问题和解决办法,希望能帮助到遭遇和我们相同的站长。网站上线后,天天查看前一天统计出来的日志文件,重点查看百度蜘蛛有没有正常爬行,但是因为是老域名,在日志中大量出现类似的记录:

  220.181.51.119 - - [10/Sep/2012:06:26:50 +0800] "GET /news/more.php?class_id=003009 HTTP/1.1" 404 1107 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  220.181.51.117 - - [10/Sep/2012:06:30:07 +0800] "GET /faq/ HTTP/1.1" 404 1107 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  220.181.51.115 - - [10/Sep/2012:08:44:22 +0800] "GET /product/disp.php?id=85 HTTP/1.1" 404 1107 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  通过这三条日志大家有没有看出问题所在,那就是蜘蛛爬行了原域名被收录了的路径,而这些路径在新站点根本不存在,所以返回了404的状态码。

  百度官方有说明,如果有404错误路径记录,可向搜索引擎提交,以便引擎尽早删除已失效的收录数据,但问题是这个域名之间用过的单位不可能提供这个记录给我们吧,那么,有没有什么积极点的办法让我们主动去解决这个问题呢?

  当然有,那就是robots.txt文件的撰写,既然所有的搜索引擎蜘蛛爬行根本不存在的路径,那么我们就不允许它爬行就是了。

  怎么描写呢?我在原有内容上加了以下内容:

  Disallow: *.asp

  Disallow: /*disp.php?id

  Disallow: /*more.php?class_id

  Disallow: /*index.php?class_id

  Disallow: /*shopping.php?id

  稍微看一下robots文件的说明,就明白,我这是禁止访问所有后缀为asp的动态文件,禁止访问任何文件名包含disp.php?id、more.php?class_id、index.php?class_id、shopping.php?id这些内容的文件,而这些内容都是我每天查看统计分析日志文件总结的内容,只要蜘蛛爬行这些动态页面,肯定都是404状态码返回,我这样描述,就是主动出击的办法。

  截止到2012年9月16日,通过我这样的设置,搜狗已经出现首页快照,好吧,搜搜与百度什么时候出现,让我们拭目以待吧。

如没特殊注明,文章均为创想网络原创,转载请注明来自我站www.wfzwz.com!
热门推荐文章

13年11月网站如何做优化

网络营销之如何有效提升网站转化率

棱镜”折射出:网络隐私7宗罪

网站名扬天下终极宝典之搜索引擎篇

新站长的四个误区

应对百度降权启用新域名时需注意的几点

谷歌再次回归 亲你准备好了吗?

潍坊seo给潍坊的电商呈上万言书

百度搜索url的参数解析

怎样判断某关键词的竞争度与优化价值

那些遗忘在角落的SEO技巧:关键词研究篇

从百度调整中分析SEO未来的路

社会化媒体下SEO的十条路

互动牛教你如何选择长尾关键词

做友情链接注意的几点

网站运营应遵循的四项基本原则

潍坊网站优化白帽SEO对网站持续经营发展的重要

告诉你研究日志文件在优化初期的重要性