NavOne 把具身导航推理压到 4 秒：78 倍加速、HM3D 71% 成功率

具身导航长期被一种叫”act-and-perceive”的循环卡着：智能体走一步、看一眼、再决定下一步。NavOne 把这套循环改成了一次性输出全局路径。来自华南理工的团队在 arXiv 放出新论文，给出的数据是推理速度比同类基线快约 78 倍，HM3D 数据集上的成功率从 64% 提升到 71%。

NavOne 一次性生成全局导航路径示意图 — NavOne 把多步决策改成单次全局路径输出，推理速度从分钟级缩到秒级

把走一步看一步换成一次想清楚

传统具身导航模型每走一步都要重新调用一次大模型，对当前观测重新编码、重新规划、重新出动作。这种循环在仿真器里都已经慢得难受，到真实机器人上几乎不可用。NavOne 的做法是把整段任务的语义目标、地图先验、可达约束一起输入，让规划网络一次输出一段长路径。

论文里给的实测数字是这样的：在 HM3D-v2 测试集上，传统循环式方法平均完成一次导航需要 312 秒，NavOne 的端到端推理只用 4 秒。成功率上 NavOne 给出 71.3%，对比 Habitat-LLM 的 64.8% 和 NaVid 的 67.2%。这个数字在具身导航这条赛道上已经算大幅领先。

速度领先靠的是结构选择

NavOne 在结构上做了三件事。一是把语义地图压成一组带坐标的 token，丢掉了大多数像素层面的细节。二是用一个轻量的 Transformer 解码器输出整段路径的关键点坐标，而不是一帧一动作。三是把碰撞检测放到了规划阶段而不是执行阶段，规划时直接用占据栅格做约束，避免到执行层才发现路径不可走。

这个思路的代价是路径执行时缺乏在线纠错。如果环境出现规划阶段没看到的动态障碍物，NavOne 需要回退到一个保守的局部避障策略。论文里在 Dynamic-HM3D 增强测试集上给出的数据是成功率掉到 58%，说明这套方法对静态环境有依赖。

具身领域里对”快”的诉求一直被低估。多伦多大学计算机系教授、CSAIL 关联学者 Animesh Garg 在 ICRA 2025 的圆桌上提到过同一观点：现阶段具身导航研究过度强调成功率，忽视了真实机器人对延迟和稳定性的要求。NavOne 把延迟压到秒级这件事，比那两位数的成功率提升更值得注意。

从仿真到真机还有距离

论文里有一段实机实验，作者把 NavOne 部署到一台 Boston Dynamics Spot 上，让它在两层办公楼里完成 50 次任务，成功率 62%。这个数字比仿真低十个百分点是正常的，主要失败原因来自照明变化和反光地板导致的语义地图错位。这部分误差跟 NavOne 本身的算法关系不大，更多是上游感知模块的问题。

有意思的是华工团队这次主动开源了模型权重和数据采集脚本，虽然没附完整的训练代码。这种”开放推理、保留训练”的发布方式，介于完全开源和闭源之间。对想要在自家机器人上复现的团队来说门槛降低了不少，也意味着这套方法能更快被业界检验。具身导航这条赛道上，速度差异比成功率差异更能决定谁先跨过工业可用的门槛，NavOne 推动了一下这条线。

参考链接：

arXiv: NavOne Embodied Navigation Paper

华工团队发布 NavOne 具身导航框架

把走一步看一步换成一次想清楚

速度领先靠的是结构选择

从仿真到真机还有距离

相关推荐