
英伟达研究团队今天发布了视觉检测新模型 LocateAnything。研究团队在论文摘要里直接亮出底牌「在保证精度的同时把推理时间压到一个新的量级」,把这次发布的卖点说得相当干脆。
1 亿样本训练支撑高精度检测
LocateAnything 用了超过 1 亿样本的视觉数据完成训练,覆盖大量长尾物体类别和复杂场景,这让它在常规目标检测之外,也能稳定处理工业视觉里大量噪声、多角度、多遮挡的情况。在公开基准测试中,新模型在精度上明显领先此前的同尺寸方案,特别是在小目标和密集场景下的召回率有显著提高。
并行解码大幅压缩响应时间
这次模型架构最关键的改动在解码阶段,团队把传统逐步生成检测结果的过程改成了并行解码。所有候选目标可以同时被解出来,再统一过一遍后处理。对应到端到端响应时间,LocateAnything 的延迟比串行方案缩短了一大截,对应的就是工业产线、视频监控、机器人感知这类对实时性极敏感的部署场景。
视觉检测的瓶颈早就不在精度了
过去几年视觉检测领域的精度榜单一路被刷新,但真正落到工厂、仓库、机器人身上时,时延才是说话最响的一项。LocateAnything 把并行解码做出来,意味着英伟达在自家硬件上把延迟和精度的权衡又往前推了一步。与其去比 mAP 多两个点,不如先把响应时间打下去,这条路才是接下来视觉模型的正题。