80 万参数解数独：小模型推理能力惊人

前沿大语言模型在数学推理、代码生成等任务上表现惊艳，但在数独这类严格结构化、需要精确逻辑推演的约束满足问题上，却交出了 0% 正确率的答卷。这一反差揭示了一个深层问题：当前基于 next-token prediction 的大模型并不真正理解逻辑约束，它们擅长的是统计模式匹配而非演绎推理。那么，能否用比大模型小数万倍的参数规模，实现精确的结构化推理？

格点投影：让 Transformer 学会逻辑演绎

哥伦比亚大学和巴纳德学院的研究团队提出了格点演绎 Transformer（Lattice Deduction Transformer, LDT）——一个在推理机制上迥异于标准 Transformer 的架构。LDT 是一个循环 Transformer：它在每一轮前向传播之后，将隐状态投影到一个格点结构（lattice）上进行修正，以此模拟搜索型约束求解器中的演绎过程。

训练策略同样关键。LDT 采用 on-policy 训练，监督信号不是来自人工标注的正确答案，而是来自一个基于抽象解释（abstract interpretation）的近似解集评估器——它不告诉模型”哪一步错了”，而是告诉模型”当前状态距离合法解集还有多远”。

循环推理机制：每次前向传播后通过格点投影修正隐状态，模拟逐步逼近合法解的过程
on-policy 训练：模型在当前策略下生成轨迹，由抽象解释评估器给出学习信号
经验可证的正确性：模型要么返回正确答案，要么主动弃权——从不给出错误答案

“大模型在数独上得 0% 并不意外，因为它们被训练去做统计预测，而不是逻辑演绎。”论文作者之一、哥伦比亚大学博士 Alberto Alfarano 指出，”LDT 的设计哲学是：如果你的目标是解数独，为什么不让模型模拟人类的推理步骤，而是让它去猜下一个数字的概率分布？”

八十万参数完胜千亿大模型

LDT 的实验结果令人印象深刻。在 Sudoku-Extreme 和 Snowflake Sudoku 两个极具挑战性的变体上，仅 80 万参数的 LDT 达到了 100% 的正确率。1.8M 参数的放大版本在 Maze-Hard 基准上也取得了 99.9% 的准确率。相比之下，包括 GPT-4、Claude 等在内的前沿大模型在同样的测试集上无一例外地给出了 0% 的正确率。

更值得注意的是 LDT 的训练效率。研究团队表示，80 万参数模型的训练仅需约 15 分钟的 GPU 算力。这一低成本使得 LDT 的训练几乎可以在任何现代 GPU 上完成，甚至包括集成显卡。

LDT 在不同基准上的表现对比

局限性与后续

LDT 当前的局限性主要在于任务通用性。格点投影机制需要为每类问题设计对应的格点结构——这对数独等约束满足问题来说是直接的，但对于更开放的自然语言推理任务，如何设计合理的格点空间仍是一个开放问题。此外，LDT 目前仅在逻辑推理类基准上得到了验证，其在编程或数学证明等更复杂任务上的表现尚待探索。团队表示，下一步目标是构建能够自动学习格点结构的通用推理模块。

参考：Lattice Deduction Transformers, arXiv:2605.08605

小模型推理突破：80 万参数解数独

格点投影：让 Transformer 学会逻辑演绎

八十万参数完胜千亿大模型

局限性与后续

相关推荐