AI 生成文章数量正式超越人类

Graphite 报告的口径与数字

SEO 工具公司 Graphite 在 5 月 25 日发布了一份报告，标题直接写在 URL 里：More articles are now created by AI than humans。这份报告基于 Graphite 自己抓取的全球新闻、博客、内容站文章数据，结论是：截至 2026 年 5 月，互联网新发布文章里机器生成的占比已经超过 50%，进入 AI 多于人类的时代。

AI 生成文章数量正式超过人类 — Graphite 报告：AI 生成内容首次超过人类创作

Graphite 的方法是这样：他们维护了一个超过 2 万个英语内容站点的爬取池，覆盖新闻媒体、营销博客、SEO 站、个人博客等不同类目。每一篇新发布文章都会被一组分类器打分，分类器训练数据里包含 GPT-3.5、GPT-4、Claude、Gemini 等主流模型生成文本的特征签名。报告里给出的具体数据是：2024 年 1 月这个比例还在 12% 左右，2025 年底攀升到 41%，2026 年 5 月首次跨过 50%。在某些垂直类目（电商导购、技术 how-to、旅游攻略）AI 占比已经接近 70%。

检测器自身的误差带

方法不是没有争议。AI 生成文本检测器的误报率在学术界仍然是个开放问题，2024 年 OpenAI 自家的 AI Text Classifier 因为准确率不足下线过一次。Graphite 在报告里强调他们的分类器在 2 万站点的样本上做过人工抽样校验，但也承认整体误差带在正负 5 个百分点之间——50% 这个数字真实的含义可能在 45% 到 55% 之间。但即使取下界 45%，结论已经足够冲击：在 SEO 内容场景里，AI 已经是过半的供给方。

Graphite 创始人 Ethan Smith 在 X 上回应质疑时说：”我们不假装这个数字精确到一个百分点，但拐点已经发生这件事，是过去十二个月里被反复印证的。”牛津大学 Ilia Shumailov 等人 2023 年发过的预印本是这次报告引用最多的一篇——那篇论文给 model collapse 这个现象做了首次系统化建模。Shumailov 本人在引用 Graphite 报告时给出了更尖锐的判断：”我们 2023 年模拟出来的崩塌曲线，原本预计要到 2028 年才会真实发生在工业模型上，Graphite 这个数字告诉我们时间线被压缩了至少两年——业界没有给训练数据治理留够冗余。”

数据循环与 SEO 生态变形

真正引发讨论的不是数字本身，而是它推出来的两个连锁问题。第一个是数据循环：未来训练大模型的语料里，AI 生成内容越占越多，模型本质上是在拿自己的输出再训练自己。学术界把这个现象叫 model collapse——结论是几代之后模型质量会显著退化。Graphite 报告的数字给这个理论问题加了一个时间戳，危机不是 2030 年，是已经在发生。

第二个是 SEO 生态的变化。Google 在 2024 年开始持续打压 AI 农场（AI content farm），把它们的排名压到自然搜索结果之外。但 Graphite 报告显示这套打压并没有让 AI 内容减少——只是让 AI 内容更隐蔽：用人写的标题包裹 AI 生成的正文、用 AI 写完之后人工润色再发布、用 AI 翻译别人的英文内容做翻译伪原创。Google 的算法跟在后面跑，但供给方一直在变形。SEO 行业里”原创”这个词在 2026 年的实际含义已经和五年前完全不同。

分流的工作只能从供给侧做

对内容平台的影响也在显化。Reddit、Stack Overflow、Quora 这些 UGC 平台都上线了 AI 内容标识或限流策略，Hacker News 几次大规模封禁过疑似 AI 评论的账号，Wikipedia 的英文站点 2026 年一季度被认定的 AI 编辑量同比涨了三倍。这些平台都在做同一件事——保护人类创作的稀缺信号，让自己平台上的内容仍然有可信度。

分流人类内容和 AI 内容的工作必须开始做，但分流的成本最终会落在供给端：要么平台强制要求作者声明，要么读者只信任有真实身份的作者。让分类器去识别 AI 文本是一条注定追不上的路，因为模型一直在迭代，分类器永远滞后。真正能跑通的方案大概率是 PKI 式的内容签名，让人类创作者像 GPG 签名邮件那样给自己的文章打可验证的签名，而不是让平台事后猜。这是接下来三年值得盯的基础设施变化。

参考：Graphite 报告

AI生成文章数量正式超越人类

Graphite 报告的口径与数字

检测器自身的误差带

数据循环与 SEO 生态变形

分流的工作只能从供给侧做

相关推荐