
复旦大学研究团队今天发布了一种新的推理架构,最大的不同是不再依赖强教师模型来引导训练。研究团队在介绍中给出的一句话总结是「让模型自己当老师,从错题里走下去」,这句话基本概括了这次工作的思路。
不靠强教师,从错误中学
过去开源推理模型的常规做法,是用一个更强的闭源模型当教师,去蒸馏中间的推理过程。复旦这次走了另一条路:让模型在解题时把自己的错误显式记录下来,再用这些错误样本反向训练,迫使模型在下一次面对类似题目时主动避坑。这套机制不需要外部强模型背书,对没有顶级算力的研究团队来说尤为有意义。
多项数理任务有突破,训练成本明显下降
从已公开的实验结果看,新架构在多项数理推理基准上跑出了相对突出的成绩,部分细分任务的提升幅度足以拉开同尺寸开源模型一截。同时由于摆脱了对强教师的依赖,整体训练所需的数据生成成本和算力成本都被显著压低。研究团队表示这套方法在论文公开后会同步释出训练代码与权重。
开源推理模型该走出对闭源教师的依赖了
过去两年,开源推理模型的提升路径基本都绕不开「找个更强的闭源模型蒸馏一遍」,这等于把开源社区的天花板交到别人手里。复旦这次把强教师从流程里拿掉,是开源推理路线第一次显出独立感。能不能把这条路走通,决定的是开源推理模型未来到底是接闭源的尾巴,还是自己走出一条线。