谷歌发布了一份新的 Robots.txt 指南,解释了 Robots.txt 如何帮助出版商和搜索引擎优化人员控制搜索引擎爬虫和其他机器人(服从 Robots.txt)。 该文档包括阻止特定页面(如购物车)、限制某些机器人以及使用简单规则管理爬行行为的示例。
从基础到高级
新文档快速介绍了什么是 Robots.txt,并逐步介绍了出版商和搜索引擎优化人员可以使用 Robots.txt 做哪些事情,以及 Robots.txt 如何使他们受益。
文档第一部分的主要内容是介绍 Robots.txt 是一个稳定的网络协议,已有 30 年的历史,受到搜索引擎和其他爬虫的广泛支持。
如果缺少 Robots.txt,谷歌搜索控制台会报告 404 错误信息。 出现这种情况并无大碍,但如果你觉得在 GSC 中看到这种情况很烦,可以等待 30 天,警告就会消失。 另一种方法是创建一个空白的 Robots.txt 文件,这也是 Google 可以接受的。
谷歌的新文档解释道:
“You can leave your robots.txt file empty (or not have one at all) if your whole site may be crawled, or you can add rules to manage crawling.”
从这里开始,它涵盖了限制特定页面或部分的自定义规则等基础知识。
Robots.txt 的高级用法涵盖了这些功能:
- 可针对特定爬虫使用不同规则。
- 可阻止 PDF 或搜索页面等 URL 模式。
- 实现对特定机器人的细粒度控制。
- 支持内部文档注释。
新文档最后介绍了编辑 Robots.txt 文件的简单方法(这是一个规则简单的文本文件),因此只需一个简单的文本编辑器即可。 许多内容管理系统都有编辑 Robots.txt 文件的方法,还有一些工具可用于测试 Robots.txt 文件是否使用了正确的语法。
最新评论
转自宝塔平台,留存备用
来源通义千问
$viewrnd=rand(2,5); 这个是重点
多年前亲测有用,现在你只能网上再找找了,注意版本号
亲测无效。。
www.jiaobanjiyh.com 香港服务器的站一直不收录,哪位大佬知道是怎么回事
www.jiaobanjiyh.com 香港服务器的站一直不收录,哪位大佬知道是怎么回事
www.jiaobanjiyh.com 香港服务器的站一直不收录,哪位大佬知道是怎么回事