小模型推理突破:80 万参数解数独

AI资讯

前沿大语言模型在数学推理、代码生成等任务上表现惊艳,但在数独这类严格结构化、需要精确逻辑推演的约束满足问题上,却交出了 0% 正确率的答卷。这一反差揭示了一个深层问题:当前基于 next-token prediction 的大模型并不真正理解逻辑约束,它们擅长的是统计模式匹配而非演绎推理。那么,能否用比大模型小数万倍的参数规模,实现精确的结构化推理?

格点投影:让 Transformer 学会逻辑演绎

哥伦比亚大学和巴纳德学院的研究团队提出了格点演绎 Transformer(Lattice Deduction Transformer, LDT)——一个在推理机制上迥异于标准 Transformer 的架构。LDT 是一个循环 Transformer:它在每一轮前向传播之后,将隐状态投影到一个格点结构(lattice)上进行修正,以此模拟搜索型约束求解器中的演绎过程。

训练策略同样关键。LDT 采用 on-policy 训练,监督信号不是来自人工标注的正确答案,而是来自一个基于抽象解释(abstract interpretation)的近似解集评估器——它不告诉模型”哪一步错了”,而是告诉模型”当前状态距离合法解集还有多远”。

  • 循环推理机制:每次前向传播后通过格点投影修正隐状态,模拟逐步逼近合法解的过程
  • on-policy 训练:模型在当前策略下生成轨迹,由抽象解释评估器给出学习信号
  • 经验可证的正确性:模型要么返回正确答案,要么主动弃权——从不给出错误答案

“大模型在数独上得 0% 并不意外,因为它们被训练去做统计预测,而不是逻辑演绎。”论文作者之一、哥伦比亚大学博士 Alberto Alfarano 指出,”LDT 的设计哲学是:如果你的目标是解数独,为什么不让模型模拟人类的推理步骤,而是让它去猜下一个数字的概率分布?”

八十万参数完胜千亿大模型

LDT 的实验结果令人印象深刻。在 Sudoku-Extreme 和 Snowflake Sudoku 两个极具挑战性的变体上,仅 80 万参数的 LDT 达到了 100% 的正确率。1.8M 参数的放大版本在 Maze-Hard 基准上也取得了 99.9% 的准确率。相比之下,包括 GPT-4、Claude 等在内的前沿大模型在同样的测试集上无一例外地给出了 0% 的正确率。

更值得注意的是 LDT 的训练效率。研究团队表示,80 万参数模型的训练仅需约 15 分钟的 GPU 算力。这一低成本使得 LDT 的训练几乎可以在任何现代 GPU 上完成,甚至包括集成显卡。

LDT 在不同基准上的表现对比

局限性与后续

LDT 当前的局限性主要在于任务通用性。格点投影机制需要为每类问题设计对应的格点结构——这对数独等约束满足问题来说是直接的,但对于更开放的自然语言推理任务,如何设计合理的格点空间仍是一个开放问题。此外,LDT 目前仅在逻辑推理类基准上得到了验证,其在编程或数学证明等更复杂任务上的表现尚待探索。团队表示,下一步目标是构建能够自动学习格点结构的通用推理模块。


参考:Lattice Deduction Transformers, arXiv:2605.08605