AI生成文章数量正式超越人类

AI资讯

Graphite 报告的口径与数字

SEO 工具公司 Graphite 在 5 月 25 日发布了一份报告,标题直接写在 URL 里:More articles are now created by AI than humans。这份报告基于 Graphite 自己抓取的全球新闻、博客、内容站文章数据,结论是:截至 2026 年 5 月,互联网新发布文章里机器生成的占比已经超过 50%,进入 AI 多于人类的时代。

AI 生成文章数量正式超过人类
Graphite 报告:AI 生成内容首次超过人类创作

Graphite 的方法是这样:他们维护了一个超过 2 万个英语内容站点的爬取池,覆盖新闻媒体、营销博客、SEO 站、个人博客等不同类目。每一篇新发布文章都会被一组分类器打分,分类器训练数据里包含 GPT-3.5、GPT-4、Claude、Gemini 等主流模型生成文本的特征签名。报告里给出的具体数据是:2024 年 1 月这个比例还在 12% 左右,2025 年底攀升到 41%,2026 年 5 月首次跨过 50%。在某些垂直类目(电商导购、技术 how-to、旅游攻略)AI 占比已经接近 70%。

检测器自身的误差带

方法不是没有争议。AI 生成文本检测器的误报率在学术界仍然是个开放问题,2024 年 OpenAI 自家的 AI Text Classifier 因为准确率不足下线过一次。Graphite 在报告里强调他们的分类器在 2 万站点的样本上做过人工抽样校验,但也承认整体误差带在正负 5 个百分点之间——50% 这个数字真实的含义可能在 45% 到 55% 之间。但即使取下界 45%,结论已经足够冲击:在 SEO 内容场景里,AI 已经是过半的供给方。

Graphite 创始人 Ethan Smith 在 X 上回应质疑时说:”我们不假装这个数字精确到一个百分点,但拐点已经发生这件事,是过去十二个月里被反复印证的。”牛津大学 Ilia Shumailov 等人 2023 年发过的预印本是这次报告引用最多的一篇——那篇论文给 model collapse 这个现象做了首次系统化建模。Shumailov 本人在引用 Graphite 报告时给出了更尖锐的判断:”我们 2023 年模拟出来的崩塌曲线,原本预计要到 2028 年才会真实发生在工业模型上,Graphite 这个数字告诉我们时间线被压缩了至少两年——业界没有给训练数据治理留够冗余。”

数据循环与 SEO 生态变形

真正引发讨论的不是数字本身,而是它推出来的两个连锁问题。第一个是数据循环:未来训练大模型的语料里,AI 生成内容越占越多,模型本质上是在拿自己的输出再训练自己。学术界把这个现象叫 model collapse——结论是几代之后模型质量会显著退化。Graphite 报告的数字给这个理论问题加了一个时间戳,危机不是 2030 年,是已经在发生。

第二个是 SEO 生态的变化。Google 在 2024 年开始持续打压 AI 农场(AI content farm),把它们的排名压到自然搜索结果之外。但 Graphite 报告显示这套打压并没有让 AI 内容减少——只是让 AI 内容更隐蔽:用人写的标题包裹 AI 生成的正文、用 AI 写完之后人工润色再发布、用 AI 翻译别人的英文内容做翻译伪原创。Google 的算法跟在后面跑,但供给方一直在变形。SEO 行业里”原创”这个词在 2026 年的实际含义已经和五年前完全不同。

分流的工作只能从供给侧做

对内容平台的影响也在显化。Reddit、Stack Overflow、Quora 这些 UGC 平台都上线了 AI 内容标识或限流策略,Hacker News 几次大规模封禁过疑似 AI 评论的账号,Wikipedia 的英文站点 2026 年一季度被认定的 AI 编辑量同比涨了三倍。这些平台都在做同一件事——保护人类创作的稀缺信号,让自己平台上的内容仍然有可信度。

分流人类内容和 AI 内容的工作必须开始做,但分流的成本最终会落在供给端:要么平台强制要求作者声明,要么读者只信任有真实身份的作者。让分类器去识别 AI 文本是一条注定追不上的路,因为模型一直在迭代,分类器永远滞后。真正能跑通的方案大概率是 PKI 式的内容签名,让人类创作者像 GPG 签名邮件那样给自己的文章打可验证的签名,而不是让平台事后猜。这是接下来三年值得盯的基础设施变化。


参考:Graphite 报告