官媒数据大量渗透训练集

AI资讯

主流模型在中文敏感问题上”立场偏移”被实测出来

5 月 21 日推特账号 @whyyoutouzhele(”李老师不是你老师”)转发了一份独立研究——研究者在过去 6 个月里对 GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro、Llama 3.1、Qwen2.5、DeepSeek-V3 这六个主流模型用相同的 240 个中文敏感问题做盲测,统计每个模型在涉政、涉港台、涉新疆、涉历史评价四类问题上的回答倾向。结论是:所有模型在中文场景下的回答与官方媒体(新华社、人民日报、央视)的立场高度一致——一致率最高的 Qwen2.5 达到 88%,最低的 Claude Sonnet 4.5 也有 51%。这份数据把一个长期存在但很少被量化的现象打了出来:中文训练语料的偏向性已经渗透进所有主流模型。

主流大模型中文敏感问题立场一致性测试结果
六个主流模型在 240 个中文敏感问题上的官方立场一致率分布

数据说明的是一个工程现象

这份测试不是政治表态,是一份数据工程的诊断书。研究者把测试问题分四类,每类 60 题,问题来自公开新闻事件、维基中文条目和外媒报道。评分标准是把模型回答与官方媒体在同一事件上的措辞做语义对照——同义改写算”一致”,明显回避或拒答归”中立”,给出与官方相反观点归”独立”。

具体数据有三个值得拎出来。第一个是中英文版本的差异——同一个 GPT-5 在中文问题上的官方一致率是 73%,同一题用英文问,一致率掉到 18%。这说明立场偏移不是模型本身的能力问题,是中文训练语料的分布问题。第二个是国产模型的家族倾向——Qwen2.5、DeepSeek-V3、智谱 GLM-4 三个国产模型在涉政类问题上的一致率分别是 91%、89%、87%,相互差异不大。第三个是 Llama 3.1(Meta 的英语主导模型)在中文测试上的一致率是 67%,比 Anthropic Claude(51%)高 16 个百分点——Meta 在中文上的训练数据来源比 Anthropic 更接近大陆社交媒体。

为什么会出现这种系统性偏移

这种偏移的根源是中文互联网公开语料的结构。Stanford CRFM 在 2025 年发的一份《中文 LLM 训练语料分布》白皮书给过一个统计:公开可抓的中文语料里,新华社、人民日报、央视、各级政府门户、官媒账号占 28%,知乎和微信公众号占 19%,电商和论坛占 14%,剩余 39% 是百科、教育、技术文档。商业大模型的训练语料以前者为主——容易爬取、清洗成本低、语言规范——但带来的副作用是模型在敏感话题上的回答被这部分语料的措辞主导。

OpenAI 的 alignment 研究员 Nick Cammarata 在 X 上对这份测试评了一句:”任何认为 RLHF 能完全消除训练数据偏向性的人都低估了规模效应。当 30% 的中文语料来自一个统一信息源,最终模型在那个语言下就会带这个口音,无论 alignment 团队做多少补救。”清华大学新闻学院的张华军教授给的判断更技术化:”这是数据工程问题,不是模型对齐问题。要让模型在中文场景下保持立场中立,要么平衡训练语料的来源,要么显式做中文 RLHF 数据集——前者的工程成本是公司不愿意付的,后者的政治成本是公司不愿意承担的。”

这件事对开发者意味着什么

对企业开发者来说,这份测试的价值不在政治评判,是一份”产品风险地图”。第一个风险是输出可信度——任何在中文场景下用大模型做新闻摘要、史料整理、跨文化沟通的产品,都要假设输出有系统性偏向。如果产品的目标用户是涉外业务、学术研究、跨境媒体,这个偏向是可以量化的失分项。第二个风险是合规——欧盟 AI Act 在 2025 年 8 月生效后明确要求高风险 AI 系统披露训练数据来源的偏向性,2027 年开始处罚没有充分披露的厂商。这意味着销往欧洲的中文 AI 产品在两年内必须给出”我家模型在某些话题上有 X% 概率给出特定立场”这种文档。

对开发者的实操建议是分层。对中性场景(代码生成、技术问答、客服)这件事可以忽略;对涉及敏感语义的场景(搜索摘要、新闻聚合、跨语言对话),必须做下游过滤——要么用多模型交叉对比、要么用检索增强强制引用可追溯的源头、要么显式让模型用英文先回答再翻译回中文。这不是政治选择,是工程选择。

训练数据的偏向性是这一代大模型最难修复的缺陷

大模型的”幻觉”问题工程界已经摸索出一套处理办法——RAG、引文校验、置信度阈值都能把它降下来。但训练语料的系统性偏向不一样,它跟模型权重纠缠在一起,无法用 prompt 工程或者推理时的过滤完全消除。这份测试把这个事实变成了可见的数字,对所有做中文产品的团队都是一个提醒——你的模型在中文场景下输出的不是”客观事实”,是”训练语料的均值”。下一代模型要解决这个问题,要么得在数据采集阶段就做主动平衡,要么得给模型加一层”立场感知”的元能力让它能告诉用户”这个回答的来源分布是怎样的”。这两条都还没有公司认真做。


参考链接: