WordPress的Robots.txt设置
2009年12月15日为了避免搜索引擎对博客内容进行重复索引,可以用robots.txt限制搜索引擎机器人对某些页面的抓取。例如分类页面(category)、标签页面(tag)之类的是随最新文章变化的,对它们做索引就没有什么意义。
可以在web的根目录下放置一个如下内容的robot.txt文件:
User-agent: * Disallow: /wp-admin Disallow: /tag Disallow: /category/ Disallow: /*?* User-agent: Mediapartners-Google Allow: /
其中的“Disallow:/*?*”那句是让搜索引擎不去索引所有带“?”的网址。如果WordPress没有采用永久固定链接而用默认的“/?p=xx”的方式的话就要删掉这句。
请注意末尾的两句,其含义是允许Google Adsense的机器人去抓取所有页面,这样才可以在所有页面上都放adsense广告。否则在禁止了索引的页面上只会显示公益广告而无法获得adsense收入。曾经有人对该问题的回复是设置:
User-agent: Mediapartners-Google* Allow: /
也就是后面加了个“*”,不知道是那人笔误还是怎样,这个“*”是不对的,但网络上以讹传讹,很多文章在说明robots.txt的设置时都说成是:“User-agent: Mediapartners-Google*”。我们可以利用google的网站管理员工具中的“测试robots.txt”来进行测试,就会发现如果末尾加了“*”的话结果是不正确的。
博主写的不错,受益匪浅,学习了
[...] 原文链接:蓝天博客 [...]
[...] 也就是后面加了个“*”,不知道是那人笔误还是怎样,这个“*”是不对的,但网络上以讹传讹,很多文章在说明robots.txt的设置时都说成 是:“User-agent: Mediapartners-Google*”。我们可以利用google的网站管理员工具中的“测试robots.txt”来进行测试,就会发现如果末 尾加了“*”的话结果是不正确的。上面的文字来自:蓝天博客 [...]