现在的位置: 首页 > 计算机 > 正文

Sitemap contains urls which are blocked by robots.txt

2012年05月04日 计算机 ⁄ 共 1024字 ⁄ 字号 评论 4 条

新站将要上线,在上线之初,因为要做大量的最终调试,为了避免频繁更改文章标题、title、description content、keywords等信息而遭遇蜘蛛的惩罚,特意将robots设置为禁止抓取,也就是“Disallow: /”。

经过上述设置后,果然让百度蜘蛛和谷歌蜘蛛都没有抓取到信息。在经过几天调试之后,终于完善了所有的内容,此时便重新设置了robots.txt,开放了抓取的权限。同时,因为网站全部采用静态页面,所以在robots.txt中使用了“Disallow: /*?* ”的配置,其本意是想屏蔽掉蜘蛛对动态标签页的抓取,以免影响权重。不过,在通过谷歌网站管理员工具提交sitemap.xml文件之后,却收到了几百条警告!

警告的内容如下:“Url blocked by robots.txt.”和“Sitemap contains urls which are blocked by robots.txt.”。经过一番搜索,网络上并没有相关问题的反馈,而但从警告内容来看,是说有URL被robots.txt文件给阻止了。从警告数量来看,刚好是sitemap.xml文件中的文字数量,难道所有需要被蜘蛛抓取的文章都莫名其妙的被阻止抓取了?

最初以为是谷歌的robots.txe信息没有更新,但是在重新更新之后,仍然有这样的警告。但是,经谷歌网站管理员工具的测试,中大GCT考试网的robots.txt文件的设置是正确的,可以正常解读,那问题出在哪里呢?

一夜无果,第二天再来看谷歌的sitemap信息,依然有警告,而且警告数量还上升了!不过仔细一看,终于发现了密码所在——被阻止的URL,实际上是“view.php?aid=209”这类动态文章页面。

如此一来,问题就水落石出了——之前以为CMS系统将所有的文章都生成了静态页面,但是没有想到的是,实际上这些静态页面所对应的动态页面仍然是存在的,而在robots.txt中的设置,不仅仅屏蔽了动态标签页的抓取,同时也屏蔽了文章内容页的动态页面。所以,谷歌网站管理员工具才会出现N多警告,但是又提示没有任何sitemap的错误信息!

当然,“Disallow: /*?* ”这样的设置,也算是很有好处的,毕竟网站是纯静态页面,而如果蜘蛛同时抓取了动态页面和静态页面,由于两者的内容是雷同的,往往会被惩罚。所以,这也算是一个意外的收获吧!

本文由中大GCT考试网原创,如果转载,请附带本站链接(www.zdgct.cn),谢谢。

目前有 4 条留言    访客:4 条, 博主:0 条

  1. SEO优化 2012年05月28日 下午 11:52  Δ-49楼

    也就是说不用管这个问题吗?但我的提示的一些静态页都没办法抓取的!

  2. 媒界狂人 2012年07月26日 上午 10:21  Δ-48楼

    我遇到相同的问题,不过我的robots不是这样设置的,是这样
    User-agent: *
    Disallow: /zjadmin

    Sitemap: http://www.tgoo.com.cn/sitemap.xml
    Sitemap: http://www.tgoo.com.cn/sitemap.htm
    所以请教下问题出在哪里,上次您的问题是怎么解决的。

  3. pheromones yahoo 2013年04月10日 上午 11:57  Δ-47楼

    pheromones myth [url=http://pheromone101.webs.com/]pheromones cats calming[/url] 4207 pheromones cologne [url=http://buypheromones.webs.com/]pheromones psychology definition[/url] 5512 [url=http://usepheromones.webs.com/]pheromones bugs[/url].

  4. online cash advance ontario 2013年04月10日 下午 12:18  Δ-46楼

    6478 [link=http://cashadvanceace.com/]online cash advance tennessee[/link] 2309 free minecraft account for pc [link=http://getminecraftaccountfree.com/]free minecraft account mac[/link] small business web design [link=http://www.smallbusinesswebdesign.co.uk]small business web design mac[/link].