视觉大模型空间偏见：高即远盲区被实证戳穿

NeurIPS 2026 接收论文里有一篇引发讨论：来自 Cornell 与 Meta FAIR 的团队发现，主流视觉大模型在判断空间深度时，会把物体「高度」和「距离」错误捆绑——画面里位置高的物体被默认为更远，画面里位置低的物体被默认为更近，跟物体真实尺寸和场景上下文都关系不大。

论文一作、Cornell 计算机视觉博士生 Andrew Liu 设计了一个叫 Spatial Tunnel 的合成评估场景：把同一物体放在不同高度但保持距离不变，让 GPT-4V、Claude Vision、Gemini 2.5 Pro、Qwen-VL Max 四个模型判断哪个更远。结果四个模型的错误率都在 67%-82% 之间，显著偏向「高即远」。

VLM 空间隧道评估示意 — Spatial Tunnel 把视觉大模型的「高即远」内部偏见拎出来摆在台面上

偏见从哪里来

Andrew Liu 的猜测是：训练数据里的人类摄影构图天然倾向于「低拍近、高拍远」（站立视角下，远山在画面顶部，近物在底部）。模型把这种构图统计当成了空间常识。论文用大约 12k 张合成图和 4k 张真实标注照片做对照实验，发现这个偏差在所有四款模型里都稳定存在，而且模型越大、越容易陷入。

为什么是个真问题

VLM 现在被大量塞进机器人、自动驾驶、AR 导航。MIT CSAIL 高级研究员 Antonio Torralba 在审稿意见里写：「如果模型把『画面顶部』直接当成『更远』，把这种 VLM 接到机器人导航上是真要出事的。」这跟此前的 Hallucination 问题不一样：幻觉是输出错文字，可以在后处理里检测；这种空间偏见嵌在视觉表征里，单看语言输出根本测不出来。

缓解路径目前都不便宜

论文提的方案是用 Spatial Tunnel 数据做 fine-tune，能把错误率降到 30% 左右，但需要重训视觉编码器。也有人质疑这相当于「用一个 trick 校准另一个 trick」，根本问题是 VLM 缺少真正的几何先验——这个要解决得动到 3D 渲染合成数据，工程量是另一个量级。

这篇论文最大的意义在于：它给一类长期没人正眼看的 VLM 缺陷起了名字，并提供了能跑的评测协议。后面会有大量论文沿着这条线挖各种类似的内部偏见，今年下半年的 ICLR 投稿想必热闹。

参考：arXiv：VLM spatial reasoning bias 检索

大模型视觉透视存在严重偏见：研究者用空间隧道测试戳穿盲区

偏见从哪里来

为什么是个真问题

缓解路径目前都不便宜

相关推荐