上海交通大学医学院附属瑞金医院与上海人工智能实验室合作的研究团队提交了一篇手术智能识别模型论文,提出名为 SurgicalMamba 的双路径架构,把腹腔镜手术视频中阶段识别的速度推到实时水平,同时保持准确率不掉。
研究问题
腹腔镜手术全程通常 60-180 分钟,由 5-8 个明确手术阶段组成(建立气腹、暴露、解剖、切除、止血、缝合等)。准确识别当前所处阶段是术中辅助决策、术后复盘、教学回放的基础。过去主流方法用 Transformer 处理视频帧序列,准确率高但单帧推理在 300-500 毫秒,远达不到实时辅助所需的 30 帧每秒。

方法
- 主干替换:把 Transformer 的自注意力换成 Mamba 状态空间模型,复杂度从 O(n²) 降到 O(n),长视频序列的推理时间随帧数线性增长
- 双路径设计:一条路径处理空间特征(每帧 RGB),另一条路径处理时序特征(跨帧光流),两路径在状态重编程模块里做通道融合
- 状态重编程:在 Mamba 的隐藏状态层引入门控机制,把视觉路径与时序路径的特征通道按学习权重重组,避免单一路径主导
- 在 Cholec80(80 例胆囊切除术)和 M2CAI16(41 例)两个公开数据集上训练评估
结果解读
论文报告的核心数字:在 Cholec80 上准确率 92.4%,对比 SOTA TransSV 的 91.8% 提升 0.6 个点;推理速度单帧 14 毫秒(NVIDIA RTX 4090),是 TransSV 的 21 倍。换算成实时性能,SurgicalMamba 可以在 4090 上跑 71 帧每秒,远超手术录像的 30 帧每秒标准。
论文通讯作者、上海人工智能实验室研究员王诺在文中写道:”手术阶段识别走出实验室进入手术室的瓶颈一直是延迟,不是准确率。我们这次的目标是把延迟做到主刀医生看不见的程度。” 他强调 14 毫秒这个数字在 RTX 4090 上是带 batch size 1 测的——也就是真实部署场景的最坏情况。
另一位作者、瑞金医院普外科主任医师严佶祺给出临床角度的判断:”准确率 92% 已经接近资深住院医师在视频回放下的水平,但医生从看到画面到判断阶段需要几秒,模型只要 14 毫秒。在腹腔镜手术机器人辅助场景里,这点延迟差距决定能不能做实时风险预警。”
局限性
论文坦承几个明显局限。Cholec80 和 M2CAI16 都是胆囊切除术单一术式的视频,模型在结直肠癌根治术、肝段切除等更复杂的多阶段手术上没有验证,作者已计划在后续工作里采集前列腺癌根治术(机器人辅助)的视频做迁移评估。Mamba 状态空间模型在长序列稳定性上的理论保证仍然薄弱,3 小时以上手术视频的累积漂移没有充分测试。
另一个被讨论较少但重要的点是临床部署环境。RTX 4090 是消费级显卡,医院手术室的工作站普遍用更保守的 RTX A5000 或 A6000,性能差距 30-40%——研究和落地之间还有一段工程化路要走。
参考链接