WordPress网站正确设置robots.txt规则

2022-03-08 0 868

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

WordPress网站正确设置robots.txt规则

Robots.txt文件的作用是什么?

每一个被爬行的网站都有一个爬行预算。爬行预算主要是搜索引擎在任何给定时间都可以爬行的有限页面数量,谁都不想把爬行预算浪费在低质量,垃圾的或不重要的页面上。这就是robots.txt文件的作用,可以使用robots.txt文件指定搜索引擎应该忽略哪些页面、文件和目录(以及其他搜索引擎),允许搜索引擎机器人把重点放在重要高质量的内容上。

下面是一些可以考虑在WordPress网站上屏蔽的重要事情:

分面导航和会话标识符

现场重复的内容

软错误页面

被黑的页面

无限的空间和代理

低质量和垃圾内容

robots.txt文件通常存放在网站根目录,想要搜索引擎搜索想要展示的页面,正确编写robots.txt文件很重要。

robots规则

robots文件头部规则:

robots.txt文件的开头为User-agent:,用来指定搜索引擎蜘蛛。

User-agent:Baiduspider //针对百度搜索蜘蛛

User-agent:googlebot //针对谷歌搜索蜘蛛

User-agent: * //*表示全局变量,针对全体搜索引擎起作用

Disallow规则:

Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。

Allow规则:

Allow定义允许搜索引擎收录的地址。

Sitemap规则:

Sitemap用来告诉搜索引擎网站地图的位置,其中sitemap.xml是你的网站的网站地图文件。

常见Robots

google蜘蛛: googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛: lycos_spider_(t-rex)

alltheweb蜘蛛: fast-webcrawler/

inktomi蜘蛛: slurp

总结WordPress全部robots.txt配置

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /feed

Disallow: /articles/*/feed

注意事项:

避免收录WordPress系统文件

避免收录重复的内容

正确引导搜索引擎找到网址地图

:本文采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可, 转载请附上原文出处链接。
1、本站提供的源码不保证资源的完整性以及安全性,不附带任何技术服务!
2、本站提供的模板、软件工具等其他资源,均不包含技术服务,请大家谅解!
3、本站提供的资源仅供下载者参考学习,请勿用于任何商业用途,请24小时内删除!
4、如需商用,请购买正版,由于未及时购买正版发生的侵权行为,与本站无关。
5、本站部分资源存放于百度网盘或其他网盘中,请提前注册好百度网盘账号,下载安装百度网盘客户端或其他网盘客户端进行下载;
6、本站部分资源文件是经压缩后的,请下载后安装解压软件,推荐使用WinRAR和7-Zip解压软件。
7、如果本站提供的资源侵犯到了您的权益,请邮件联系: 442469558@qq.com 进行处理!

猪小侠源码-最新源码下载平台 WordPress教程 WordPress网站正确设置robots.txt规则 http://www.20zxx.cn/365053/wordpres/wordpressq.html

猪小侠源码,优质资源分享网

常见问题
  • 本站所有资源版权均属于原作者所有,均只能用于参考学习,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担
查看详情
  • 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,建议提前注册好百度网盘账号,使用百度网盘客户端下载
查看详情

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务