复旦推出无强教师推理架构:从错误中学,多项数理任务突破 复旦大学发布全新推理架构,摆脱对强教师模型的依赖,让模型从自身错误中学习。该方法在多项数理基准测试上跑出突出成绩,且显著... 复旦大学强化学习推理模型 2026-05-29