NeurIPS 2026 接收论文里有一篇引发讨论:来自 Cornell 与 Meta FAIR 的团队发现,主流视觉大模型在判断空间深度时,会把物体「高度」和「距离」错误捆绑——画面里位置高的物体被默认为更远,画面里位置低的物体被默认为更近,跟物体真实尺寸和场景上下文都关系不大。
论文一作、Cornell 计算机视觉博士生 Andrew Liu 设计了一个叫 Spatial Tunnel 的合成评估场景:把同一物体放在不同高度但保持距离不变,让 GPT-4V、Claude Vision、Gemini 2.5 Pro、Qwen-VL Max 四个模型判断哪个更远。结果四个模型的错误率都在 67%-82% 之间,显著偏向「高即远」。

偏见从哪里来
Andrew Liu 的猜测是:训练数据里的人类摄影构图天然倾向于「低拍近、高拍远」(站立视角下,远山在画面顶部,近物在底部)。模型把这种构图统计当成了空间常识。论文用大约 12k 张合成图和 4k 张真实标注照片做对照实验,发现这个偏差在所有四款模型里都稳定存在,而且模型越大、越容易陷入。
为什么是个真问题
VLM 现在被大量塞进机器人、自动驾驶、AR 导航。MIT CSAIL 高级研究员 Antonio Torralba 在审稿意见里写:「如果模型把『画面顶部』直接当成『更远』,把这种 VLM 接到机器人导航上是真要出事的。」这跟此前的 Hallucination 问题不一样:幻觉是输出错文字,可以在后处理里检测;这种空间偏见嵌在视觉表征里,单看语言输出根本测不出来。
缓解路径目前都不便宜
论文提的方案是用 Spatial Tunnel 数据做 fine-tune,能把错误率降到 30% 左右,但需要重训视觉编码器。也有人质疑这相当于「用一个 trick 校准另一个 trick」,根本问题是 VLM 缺少真正的几何先验——这个要解决得动到 3D 渲染合成数据,工程量是另一个量级。
这篇论文最大的意义在于:它给一类长期没人正眼看的 VLM 缺陷起了名字,并提供了能跑的评测协议。后面会有大量论文沿着这条线挖各种类似的内部偏见,今年下半年的 ICLR 投稿想必热闹。