
X 上一位长期做渲染评测的博主把 Claude 最新模型拉去跑光追渲染。他的开场结论很直接:”空间理解力相比上一代略有下滑,但单帧去噪的细节恢复仍然是这个价位段最强的。”
测试是怎么做的,数字是多少
博主公开了测试脚本:输入一张 1024×1024 分辨率的低采样光追图,里面包含玻璃、金属、皮肤三种材质,让模型去推理光线路径并补全噪点。同一组 30 张测试图,新模型的去噪 PSNR 平均 32.4,前代是 32.1,几乎持平;但在场景空间一致性评测里,新模型平均得分 78 分,比前代的 84 分低了 6 分。表现下滑最明显的是多物体相互遮挡的场景,模型偶尔会把后景物体的反射方向算错。
社区开始讨论 Claude 在多模态上的真实边界
这条帖子的转评数很快冲到几千。一些做 3D 工具的开发者认为,去噪表现继续领先说明 Claude 在像素级细节上仍有优势,适合做后处理;空间理解的回退则更可能是训练数据分布的取舍,不一定是模型能力本身退化。博主在追评里补充了一组数据:在纯 2D 图像理解任务上,新模型相比前代提升约 4%,但凡涉及深度、视角、相对位置的任务,整体降了 3% 到 7%。这种”有得有失”的曲线让社区开始重新审视 Claude 在多模态视觉任务上的定位。
Claude 不该在视觉任务上单独评估,要看任务组合
把光追渲染拿出来单独打分,得到的结论容易偏。Claude 在文本推理、代码生成、工具调用这些任务上的强势是真的,多模态视觉是它相对短的板。这次测试里去噪强、空间弱的组合,刚好说明 Anthropic 在迭代时倾向把算力花在文本和代码方向,视觉只保了基本盘。开发者要落地视觉任务,更稳妥的选法是把 Claude 配合专门的视觉模型一起用,而不是指望单一模型通吃。