全新 RHINO 算法实现单目视频三维重建

AI资讯

从单目视频里恢复人和物体的三维交互,一直是空间计算内容生产里最贵的一环。RHINO 提出了一个基于物理接触先验的优化框架,在 BEHAVE 数据集上把人与物体之间的穿透体积从基线的 18.4% 压到了 3.7%。这个数字背后是一套把”物体不能穿过手”这种朴素物理常识写进损失函数的工程方案。

RHINO 算法重建人机交互三维场景示意图
RHINO 利用接触先验约束人手与物体的相对位置,重建结果显著减少穿透

把接触关系写进重建

RHINO 的输入只有一段单目视频,输出是带时序的人体姿态、物体六自由度位姿和场景级网格。技术路线上它继承了 SLAHMR、HOI-Diff 这一脉的优化框架,但在两个地方做了关键改动。

第一处是接触先验。作者从 GRAB 数据集里学了一份”人手与各类物体的常见接触模式”,这份先验告诉优化器手指捏茶杯时大概会怎么贴合,端盘子时手掌会落在哪。第二处是穿透惩罚。每一帧都计算人体网格与物体网格的有符号距离场,负值越大惩罚越重,优化器会主动把物体往远处推。

论文里给出的对比数字相当直接:在 BEHAVE 测试集上,RHINO 的人物接触准确率达到 81.2%,比 HOI-Diff 高 9 个百分点,物体位姿误差中位数 4.7 厘米,比 InterCap 低近一半。每段 5 秒视频的优化耗时大约 11 分钟,跟同类方法持平。

对空间计算管线的实际意义

苹果 Vision Pro 和 Meta Quest Pro 推动空间计算之后,行业里一个绕不过去的问题是:3D 内容从哪里来?真人扫描成本高、CG 建模周期长,最便宜的来源其实是普通手机拍的视频。RHINO 这类方法的价值在于把单目视频转成可用的 3D 资产,并且交付的不只是几何,还包括人和物体的语义关系。

斯坦福视觉与学习实验室主任、计算机系教授李飞飞在多个公开演讲里强调过同一个判断:物理仿真精度直接决定了具身智能与空间计算内容的可信度。她带的团队在 BEHAVE-Sim 项目上也做过类似工作,但更偏重多视角设置。RHINO 选择死磕单目场景,对工业落地来说门槛更低。

另一处常被忽略的细节是 RHINO 给出的物体类别覆盖。作者在论文里测试了 23 类常见物体,包括马克杯、键盘、健身球、椅子等,但对柔性物体如毛巾、纸袋的支持很差,穿透体积回弹到 12% 以上。这是接触先验本身的局限:GRAB 数据集里柔性物体样本很少。

降低空间计算内容门槛

这套方法没有打算颠覆什么。它瞄准的是一段被低估的工程链路:把日常视频转成”人和物体都对得上”的 3D 场景。开源代码后,独立开发者用一段五分钟视频就能产出十几秒可用的交互资产,对小团队来说降低的不是几个百分点的成本,而是整段管线能不能跑通的差别。

RHINO 真正的不足在于优化耗时仍以分钟计。要进入实时管线还需要把整套优化目标蒸馏成一个前馈网络,作者在论文末尾也提到这是下一步工作。短期内这套方法适合做”离线高质量重建”,长期看它是把物理先验注入视觉重建的一次具体尝试。空间计算这条赛道上,物理一致性的进展往往比 fancy 的展示更重要。


参考链接: