具身导航长期被一种叫”act-and-perceive”的循环卡着:智能体走一步、看一眼、再决定下一步。NavOne 把这套循环改成了一次性输出全局路径。来自华南理工的团队在 arXiv 放出新论文,给出的数据是推理速度比同类基线快约 78 倍,HM3D 数据集上的成功率从 64% 提升到 71%。

把走一步看一步换成一次想清楚
传统具身导航模型每走一步都要重新调用一次大模型,对当前观测重新编码、重新规划、重新出动作。这种循环在仿真器里都已经慢得难受,到真实机器人上几乎不可用。NavOne 的做法是把整段任务的语义目标、地图先验、可达约束一起输入,让规划网络一次输出一段长路径。
论文里给的实测数字是这样的:在 HM3D-v2 测试集上,传统循环式方法平均完成一次导航需要 312 秒,NavOne 的端到端推理只用 4 秒。成功率上 NavOne 给出 71.3%,对比 Habitat-LLM 的 64.8% 和 NaVid 的 67.2%。这个数字在具身导航这条赛道上已经算大幅领先。
速度领先靠的是结构选择
NavOne 在结构上做了三件事。一是把语义地图压成一组带坐标的 token,丢掉了大多数像素层面的细节。二是用一个轻量的 Transformer 解码器输出整段路径的关键点坐标,而不是一帧一动作。三是把碰撞检测放到了规划阶段而不是执行阶段,规划时直接用占据栅格做约束,避免到执行层才发现路径不可走。
这个思路的代价是路径执行时缺乏在线纠错。如果环境出现规划阶段没看到的动态障碍物,NavOne 需要回退到一个保守的局部避障策略。论文里在 Dynamic-HM3D 增强测试集上给出的数据是成功率掉到 58%,说明这套方法对静态环境有依赖。
具身领域里对”快”的诉求一直被低估。多伦多大学计算机系教授、CSAIL 关联学者 Animesh Garg 在 ICRA 2025 的圆桌上提到过同一观点:现阶段具身导航研究过度强调成功率,忽视了真实机器人对延迟和稳定性的要求。NavOne 把延迟压到秒级这件事,比那两位数的成功率提升更值得注意。
从仿真到真机还有距离
论文里有一段实机实验,作者把 NavOne 部署到一台 Boston Dynamics Spot 上,让它在两层办公楼里完成 50 次任务,成功率 62%。这个数字比仿真低十个百分点是正常的,主要失败原因来自照明变化和反光地板导致的语义地图错位。这部分误差跟 NavOne 本身的算法关系不大,更多是上游感知模块的问题。
有意思的是华工团队这次主动开源了模型权重和数据采集脚本,虽然没附完整的训练代码。这种”开放推理、保留训练”的发布方式,介于完全开源和闭源之间。对想要在自家机器人上复现的团队来说门槛降低了不少,也意味着这套方法能更快被业界检验。具身导航这条赛道上,速度差异比成功率差异更能决定谁先跨过工业可用的门槛,NavOne 推动了一下这条线。
参考链接: