SkillGrad 框架发布：类梯度下降让大模型自我进化

2026-05-29 AI资讯

SkillGrad 大模型自我进化框架 — SkillGrad 用类梯度下降让大模型自我修复

研究团队今天放出了一个名为 SkillGrad 的新框架，把大模型的自我修复抽象成一种类梯度下降过程。论文摘要里写得很直接「让模型自己回头看错在哪，再把错误当成损失项往下走一步」，这正是这次工作最核心的视角。

类梯度下降加动量机制累积长期记忆

SkillGrad 把模型的失败案例当成一种「损失」，再用类梯度下降的方式更新模型在某项技能上的行为偏置。引入的动量机制让历史经验可以累积，避免每次只针对当下错误调整、刚学会就忘的问题。这一套机制并不依赖额外的人工标注，主要靠模型自己生成、对比、修正，再形成可累积的长期记忆。

补丁程序驱动多项基准明显提升

研究团队进一步把更新结果以补丁程序的形式注入主模型，让能力增量在不影响主权重的情况下被叠加上来。这样做的好处是修复过程可以快速回滚、可以分领域装载，对部署侧极其友好。在多项推理与代码相关基准上，加装 SkillGrad 后的模型相比基线有明显提升，研究团队认为这套方案最值得在实际产品里跑一跑。

自我进化的关键不是更聪明，而是不健忘

大模型「自我进化」这个词被喊了好几年，多数方案在演示里都行得通，落到长期使用就走样：要么改一项忘一项，要么把基础能力越改越坏。SkillGrad 把动量机制做进核心，是直击「健忘」这个老毛病。能不能让模型一年后还记得三个月前学到的小经验，比再涨几个点都重要。

参考：arXiv 大模型自进化研究