复旦推出无强教师推理架构：从错误中学，多项数理任务突破

2026-05-29 AI资讯

复旦推出无强教师推理架构 — 复旦新架构让模型从自身错误里学

复旦大学研究团队今天发布了一种新的推理架构，最大的不同是不再依赖强教师模型来引导训练。研究团队在介绍中给出的一句话总结是「让模型自己当老师，从错题里走下去」，这句话基本概括了这次工作的思路。

不靠强教师，从错误中学

过去开源推理模型的常规做法，是用一个更强的闭源模型当教师，去蒸馏中间的推理过程。复旦这次走了另一条路：让模型在解题时把自己的错误显式记录下来，再用这些错误样本反向训练，迫使模型在下一次面对类似题目时主动避坑。这套机制不需要外部强模型背书，对没有顶级算力的研究团队来说尤为有意义。

多项数理任务有突破，训练成本明显下降

从已公开的实验结果看，新架构在多项数理推理基准上跑出了相对突出的成绩，部分细分任务的提升幅度足以拉开同尺寸开源模型一截。同时由于摆脱了对强教师的依赖，整体训练所需的数据生成成本和算力成本都被显著压低。研究团队表示这套方法在论文公开后会同步释出训练代码与权重。

开源推理模型该走出对闭源教师的依赖了

过去两年，开源推理模型的提升路径基本都绕不开「找个更强的闭源模型蒸馏一遍」，这等于把开源社区的天花板交到别人手里。复旦这次把强教师从流程里拿掉，是开源推理路线第一次显出独立感。能不能把这条路走通，决定的是开源推理模型未来到底是接闭源的尾巴，还是自己走出一条线。

参考：arXiv 复旦 NLP 论文