英伟达发布视觉检测模型 LocateAnything：1 亿样本训练并行解码

2026-05-29 AI资讯

英伟达视觉检测模型 LocateAnything — 英伟达发布高精度并行解码检测模型

英伟达研究团队今天发布了视觉检测新模型 LocateAnything。研究团队在论文摘要里直接亮出底牌「在保证精度的同时把推理时间压到一个新的量级」，把这次发布的卖点说得相当干脆。

1 亿样本训练支撑高精度检测

LocateAnything 用了超过 1 亿样本的视觉数据完成训练，覆盖大量长尾物体类别和复杂场景，这让它在常规目标检测之外，也能稳定处理工业视觉里大量噪声、多角度、多遮挡的情况。在公开基准测试中，新模型在精度上明显领先此前的同尺寸方案，特别是在小目标和密集场景下的召回率有显著提高。

并行解码大幅压缩响应时间

这次模型架构最关键的改动在解码阶段，团队把传统逐步生成检测结果的过程改成了并行解码。所有候选目标可以同时被解出来，再统一过一遍后处理。对应到端到端响应时间，LocateAnything 的延迟比串行方案缩短了一大截，对应的就是工业产线、视频监控、机器人感知这类对实时性极敏感的部署场景。

视觉检测的瓶颈早就不在精度了

过去几年视觉检测领域的精度榜单一路被刷新，但真正落到工厂、仓库、机器人身上时，时延才是说话最响的一项。LocateAnything 把并行解码做出来，意味着英伟达在自家硬件上把延迟和精度的权衡又往前推了一步。与其去比 mAP 多两个点，不如先把响应时间打下去，这条路才是接下来视觉模型的正题。