删掉一半图像 token 模型分数照样不变
arxiv 编号 2605.22903 的论文 5 月 26 日挂出来,题目是 The Hidden Holes in Multimodal Benchmarks。第一作者 Sara Beery 来自 MIT CSAIL,合作单位有 Google Research 和华盛顿大学的 Pang Wei Koh 团队。论文做了一组反向实验——把当前主流的多模态评测题里的图像分若干区块随机删除,再把这些”残缺图”喂给 GPT-4V、Claude 3.5 Sonnet、Gemini 1.5 Pro 让它们答题。

实验结论尖锐:在 MMMU、MMBench、SEED-Bench 三个常用多模态评测上,删除多达 50% 的图像 token,模型答题正确率波动不超过 2 个百分点。也就是说当前评测的相当一部分题目,模型不靠看图也能答对——靠的是题干文本里隐含的语义先验、加上常识推理。
评测题里有结构性的”语义泄漏”
Beery 团队把这种现象叫做 visual blind spot——模型在评测时表现”看到”,但答题路径根本没用到细粒度视觉证据。论文进一步拆了三个原因:第一,题干本身就高度暗示答案,比如”图中那只动物在草地上的姿势是?”——只要答”行走/跑动/趴卧”几个常见类别就有概率蒙对;第二,多选项里的干扰项过于离题,模型靠语言常识就能排除;第三,训练集里大量类似图—文对让模型记住了”这类问题该答这类答案”的统计模式。
论文给出的具体数据有几个值得抄走。MMBench 上 GPT-4V 完整图像得分 78.4%,删掉 50% token 后是 76.9%;只给题干、彻底不给图的对照组也有 71.2%——和完整图像之间只差 7 个百分点。SEED-Bench 上 Claude 3.5 Sonnet 完整图像 73.1%,无图对照组 65.4%——差距 8 个百分点。Pang Wei Koh 在论文摘要里写得直接:”如果一个号称’多模态’的评测,模型不看图就能拿到 90% 以上的相对分数,那它度量的不是多模态能力,而是语言常识。”
下一代评测要把”必须看图才能答”做成强制约束
这个问题的本质是评测设计没把视觉证据强制成必要条件。Beery 团队在论文最后一节给了一组建议:题干必须做”语义脱敏”(去掉指向性形容词),干扰项要在视觉上接近正确答案、文字层面无法区分,每道题应该附带”无图基线”分数作为下限。她们同时开源了一个 visual-necessary benchmark 的初版,挑出 1,200 道题,模型在无图条件下基线分数控制在 25% 以下(接近随机)。
这篇研究对工业界的影响有两条。一是 GPT-4V、Claude、Gemini 这一档模型在多模态评测上的高分要重新打折看——分数高不等于”看图准”。二是新一代评测设计需要把视觉必要性作为强制约束写进基准建设规范,否则评测会持续落后于模型能力评估真正的需求。论文还没经过同行评审,但社区第一轮复现已经在路上——HuggingFace 上有人 24 小时内就发了一个 token 删除工具的开源实现。
参考:arxiv 论文