人们常犯的 错误以及如何避免这些错误

字符 * 用于表示“所有”或“任何有效字符的 0 个或多个实例”。 匈牙利电话号码 , $ 字符用于表示 URL 的结尾。了解通配符在以下示例中的工作原理并明智地使用它们。正确实现示例 User-Agent:*(这里*用于表示所有类型的用户代理)Disallow:/assets*(这里*表示任何包含“/assets”的URL都会被阻止)Disallow:*.pdf$(该指令表示应阻止任何以扩展名 .pdf 结尾的 URL)不要不必要地使用通配符,否则您最终可能会阻止整个文件夹而不是单个 URL。不必要地使用斜线 另一个常见错误是在 robots.txt 中阻止/允许 URL 时使用尾部斜线。

不必花时间查找站点地图,因为它已被预先提及。让机器人变得更容易总是对您的网站有所帮助。

例如,如果您想阻止 匈牙利电话号码 如果添加不必要的斜杠会发生什么?用户代理:* 禁止:/ 这将告诉  不要抓取“/category/”文件夹中的网址。此外,它不会阻止“/category” URL,因为没有尾部斜杠。阻止 URL 用户代理的完美方法: * 禁止:中使用x 指令 这是人们现在已经放弃的旧做法。 Google 已正式宣布,从 2019 年 9 月 1 日起,NoIndex 指令将不再适用于 robots.txt 文件。如果你使用它,你应该摆脱它。相反,您应该在 robots 元标记中为您不希望 Google 编制索引的 URL 设置  属性。 robots.txt 中 NoIndex 的示例 使用 robots 元标记代替 <meta name=”robots” content=”noindex”/> 在您希望阻止 Google 编制索引的网址的页面代码中使用此代码段,而不是使用 NoIndex 指令在 robots.txt 文件中。不提及站点地图 URL 人们经常忘记在 robots.txt 文件中提及站点地图的位置,这是不可取的。

指定站点地图的位置将帮助爬虫从机器人文件本身中发现站点地图。

匈牙利电话号码

Googlebot 如何在 robots 文件中设置站点地图的位置?匈牙利电话号码 , 只需在您的 robots.txt 文件中使用下面提到的命令来声明您的站点地图。站点地图: 屏蔽 人们通常认为 CSS 和 JS 文件可以被 Googlebot 索引,因此最终会在 robots.txt 中屏蔽它们。 Google 的 John Mueller 本人建议不要阻止 JS 和 CSS 文件,因为 Googlebot 需要抓取它们才能有效地呈现页面。如果 Googlebot 无法呈现页面,它很可能不会对这些页面进行索引或排名。您可以在此处阅读有关穆勒建议的更多信息。不要为每个子域创建专用的 robots.txt 文件建议网站的每个子域,包括暂存子域,都有一个专用的 robots.txt 文件。不这样做可能会导致对不需要的子域(例如暂存、API 等)进行爬网和索引,以及对重要子域的低效爬网。因此,强烈建议确保为每个子域定义和个性化 robots.txt 文件。

Leave a comment

Your email address will not be published.