WordPress网站如何设置robots.txt

2018年6月25日07:20:08 发表评论 51 views

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

WordPress网站如何设置robots.txt

 

robots.txt文件通常存放在网站根目录,想要搜索引擎搜索想要展示的页面,正确编写robots.txt文件很重要。

robots规则

  • robots文件头部规则:

robots.txt文件的开头为User-agent:,用来指定搜索引擎蜘蛛。

User-agent:Baiduspider  //针对百度搜索蜘蛛

User-agent:googlebot  //针对谷歌搜索蜘蛛

User-agent: *  //*表示全局变量,针对全体搜索引擎起作用

 

  • Disallow规则:

Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。

 

  • Allow规则:

Allow定义允许搜索引擎收录的地址。

 

  • Sitemap规则:

Sitemap用来告诉搜索引擎网站地图的位置,其中sitemap.xml是你的网站的网站地图文件。

Sitemap: http://domain/sitemap.xml

 

常见Robots

google蜘蛛: googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛: lycos_spider_(t-rex)

alltheweb蜘蛛: fast-webcrawler/

inktomi蜘蛛: slurp

 

总结WordPress全部robots.txt配置

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /feed

Disallow: /articles/*/feed

Sitemap: http://domain/sitemap.xml

注意事项:  

  • 避免收录WordPress系统文件
  • 避免收录重复的内容
  • 正确引导搜索引擎找到网址地图

 

在线robots生成工具:http://tool.chinaz.com/robots/

 

上传robots.txt至网站根目录

robots.txt做好后,将此文件上传至服务器根目录。使用FileZilla工具连接服务器,将robots.txt文件上传至网站的根目录下。

WordPress网站如何设置robots.txt

 

测试robots.txt是否成功

浏览器地址栏直接输入http://domain/robots.txt,如果能正常访问并能看到自己刚配置的规则,表示robots.txt已生效。

里维斯社

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: