WordPress搜索引擎优化之robots.txt优化

WordPress 自从2.1版本开始,在 Privacy 选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多,我们可以通过它来告诉搜索引擎那些目录可以爬,哪些不可以爬。 在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名。 使用WordPress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。 最简单的开放写法: User-agent: * Disallow: 使用说明:允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。 最简单的严格写法: User-agent: * Disallow: /wp-* #Allow: /wp-content/uploads/ Disallow: /*.php$ Disallow: /*.inc$ Disallow: /*.js$ Disallow: /*.css$ Disallow: /?s= 使用说明:允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。 Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。 最合理的写法: User-agent: * Disallow: /wp-admin Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-includes Disallow: /?s= Sitemap: http://domain/sitemap.xml 使用说明:允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。 包含sitemap.xml地址(这一项wiki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。 robots.txt其他写法:为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):…

End of content

End of content