NVIDIA SONIC 把人形机器人动作追踪推到基础模型尺度

NVIDIA 的 Linxi “Jim” Fan、Yuke Zhu 团队和 Zhengyi Luo 等共 26 位作者把人形机器人的全身动作控制器拉到了基础模型尺度。论文 SONIC 把网络从 1.2M 参数推到 42M，训练数据用了超过 1 亿帧、700 小时的高质量动捕数据，训练算力 9000 GPU 小时，就在动作追踪这一个任务上完成全部 scaling。题目原文叫 Supersizing Motion Tracking for Natural Humanoid Whole-Body Control，arXiv 编号 2511.07820。

论文的核心论点不是新方法，而是一个反差：千亿参数语言模型已经成为常态，但人形机器人的神经控制器至今仍停留在小模型、单一行为、几张卡训几天的水平。SONIC 想证明的是，把动作追踪当 scalable 任务来做，神经控制器一样能吃到 scaling law。

动作追踪是 humanoid 控制最适合放大的任务

作者把动作追踪选作 foundation 任务的理由很直接：动捕数据自带稠密监督，不需要靠人工设计奖励函数去骗策略学走路。这意味着数据规模可以无痛扩展，模型容量可以一路堆上去，而不会卡在奖励工程这一关。论文里给出的三轴 scaling 实验显示，三件事一起扩——网络尺寸、数据量、算力——性能稳步提升，学到的表征能迁移到没见过的动作。

这是机器人控制研究里少见的”scaling 真的好用”结论。过去同类方向之所以没人做大规模训练，根本原因是奖励工程和仿真到现实的 gap 把训练周期切碎了——SONIC 把任务定义换成动作追踪，相当于用动捕数据绕开了奖励设计，把控制器训练拉回到监督学习的轨道上。

real-time kinematic planner + 统一 token space

训练完一个能 tracking 的大模型只是底座。论文给出两个把模型变实用的桥梁：一是实时 universal kinematic planner，把动作追踪和下游任务执行连起来，机器人可以一边接受实时指令一边维持自然动作；二是统一 token space，VR 遥操作设备、人类视频、VLA 模型的输入都被映射到同一套 token，复用同一份策略。

这个统一接口比 tracking 模型本身更有价值。它意味着同一个控制器既能被人手柄遥控、又能被语言模型驱动，研究人员不再需要为每种输入源单独训练 policy。这一步把 SONIC 从”一个会跳舞的策略”推到了”机器人的通用执行底座”。

人形控制的下一阶段会被基础模型逻辑改写

这篇论文的真正意义是节奏信号。当数据、参数、算力的 scaling 在动作追踪任务上首次稳定起作用，整个 humanoid 控制赛道的研究方法就会向语言模型的路线靠拢——大数据集、大模型、统一接口、上层任务以提示或工具形式接入。

下一个明显要补的方向是真实环境数据。700 小时高质量动捕仍然偏向理想动作，机器人要在现实里干活就得吃下噪声更大的视频和遥操作 trace。SONIC 的统一 token space 已经把这扇门留好了，剩下就是数据收集和迭代速度的问题。

参考资料：

Zhengyi Luo 等，SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control，arXiv:2511.07820

英稳达开源 SONIC 体控模型

动作追踪是 humanoid 控制最适合放大的任务

real-time kinematic planner + 统一 token space

人形控制的下一阶段会被基础模型逻辑改写

相关推荐