robots.txt是什么?网站robots的作用和基本写法(8 年站长经验总结)

做网站这么多年,我见过太多新手站长对 robots.txt 一知半解,要么写得太复杂,要么直接照搬别人的模板,结果不是屏蔽错页面,就是放行了大量无意义目录,最后导致收录变慢、重复页面变多,还浪费了抓取预算。

robots.txt 的目的并不是直接提升排名,而是让搜索引擎少走弯路,把抓取预算集中在有价值的页面上。对于像我这样长期更新 SEO、建站教程、独立站赚钱技巧的网站来说,抓取效率往往比什么都重要。

这篇文章主要解决三个问题:

  • robots.txt 到底是什么?
  • 网站 robots 的作用有哪些?
  • robots 的基本写法应该怎么写?

最后我也会分享我目前在 锋哥富盟(fenggefu.com) 在线使用的 robots.txt 配置,供你参考。


robots.txt 是什么?

robots.txt是什么?网站robots的作用和基本写法(8 年站长经验总结)

简单讲,robots.txt 是放在网站根目录下的一个纯文本文件,它的作用就是告诉搜索引擎:

  • 哪些页面能抓
  • 哪些页面不能抓
  • 网站地图在哪里

robots 不直接决定排名,但它能决定“搜索引擎看到的是什么内容”,这对整个网站的抓取质量影响非常大。

配置正确的 robots 能让搜索引擎更快、更稳定地抓重要页面;配置不当则可能导致:

  • 该收录的不收录
  • 不该收录的一堆重复页反而被抓走
  • 抓取预算大量浪费在无意义目录

robots.txt 的作用(站长必须知道的核心点)

虽然 robots.txt 不会直接提升排名,但它可以极大影响搜索引擎对网站的抓取方式。我总结为以下几个关键作用:

控制搜索引擎抓取范围

通过 Disallow 可以直接屏蔽后台目录、系统目录、搜索结果页等,让搜索引擎把更多精力放在文章页。

避免重复内容收录

tag、author、search 都属于重复内容来源,开放收录只会拖垮整站的内容质量。

提升抓取效率

让蜘蛛花更多时间抓你的“核心内容”,而不是插件目录、主题目录、缓存目录、日志文件。

隐藏敏感或低价值文件

/xmlrpc.php/wp-login.php 这类文件不适合被抓取,屏蔽掉可以减少无效访问。

告诉搜索引擎网站地图位置

Sitemap 是提高抓取速度的关键入口,通过 robots 指明 sitemap 可以让蜘蛛更快发现内容。


robots.txt 的基本写法(新手掌握这些就够了)

robots.txt是什么?网站robots的作用和基本写法(8 年站长经验总结)

robots.txt 虽然看起来神秘,但真正常用的语法就下面几个:

User-agent

表示“给谁生效”。例如:

User-agent: *

意思是:对所有搜索引擎生效。

Allow

允许抓取的路径,例如 WordPress 中最重要的:

Allow: /wp-content/uploads/

Disallow

禁止抓取某个目录或URL,而 robots 的主要工作就是写 Disallow。

Sitemap

用于声明网站地图的位置,例如:

Sitemap: https://www.fenggefu.com/sitemap.xml

掌握这四个,你已经能写出 80% 网站都适配的 robots.txt。


锋哥富盟正在使用的 robots.txt(实战示例)

下面这份就是我目前在 fenggefu.com 使用的正式 robots.txt,也是结合 WordPress 大学主题、缓存插件、图片优化插件、防垃圾插件之后的实际配置:

User-agent: *
Allow: /wp-content/uploads/

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/

Disallow: /cgi-bin/
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /license.txt

Disallow: /search/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Disallow: /*?utm_*
Disallow: /*?ref=*
Disallow: /*?from=*
Disallow: /*?page_id=*

Sitemap: https://www.fenggefu.com/sitemap.xml

这份 robots 为什么要这样写?(实战经验总结)

uploads 必须放行

uploads 是文章图片所在目录,禁止它会导致图片全部无法抓取,页面质量直接下降。

插件和主题目录无需抓取

其中大多数 JS、CSS、字体文件无 SEO 价值,反而浪费蜘蛛抓取资源,所以统一禁掉即可。

后台与系统目录要禁止

这些目录包含大量系统文件,抓取无意义,也可能暴露敏感路径,后台和系统文件统一屏蔽。

tag / author / search 不适合收录

这三类页面重复度极高,开放只会拖垮网站整体质量,建议所有内容站都屏蔽。

禁止常见参数,避免重复URL泛滥

utm、ref 等跟踪参数会制造大量页面副本,必须在 robots 中禁止。

缓存目录不需要搜索引擎抓取

缓存插件生成的内容不是正式页面,让蜘蛛抓缓存是纯浪费。


常见 robots 错误(很多新手都会踩)

  • 抄“万能 robots”,结果屏蔽错目录
  • 误屏蔽 /wp-content/ 导致图片无法抓取
  • 放行 tag、author,导致大量重复内容收录
  • 参数页面不处理,出现几十个重复版本
  • 忘记写 Sitemap,抓取效率非常低

总结:内容站的 robots 应该怎么写?

  • 只放行 uploads,其余目录全部禁止
  • 后台、系统目录必须禁止
  • tag/author/search 是重复内容源头,建议屏蔽
  • 常见参数必须限制,避免重复页面
  • 缓存目录不抓取,节省预算
  • Sitemap 必须声明

以上就是我目前在线使用、并验证过的 robots.txt 思路,如果你的网站类型也偏向内容、教程、评测,这套配置可以直接套用,也可以根据自己的结构微调。

声明:本文为原创,作者为 锋哥富盟,转载时请保留本声明及附带文章链接:https://www.fenggefu.com/robots/