
研究者发布 CFGzip 论文,提出用压缩算法重构上下文无关文法(CFG)的搜索空间,把约束解码延迟一次性砍下两个数量级,综合生成速度提升约 7.5 倍。对结构化输出场景,这是过去一段时间里最值钱的推理加速结果之一。
约束解码延迟下降 100 倍,综合提速 7.5 倍
约束解码长期是大模型卡脖子的环节:要保证输出严格满足 JSON、SQL、DSL 等文法,每生成一个 token 都要回到文法树查路径,复杂文法下延迟动辄翻数十倍。CFGzip 的做法是把文法路径用压缩算法合并,把可达后继的判定从动态遍历变成查表加常数时间组合。论文给出的数据是约束解码本身的延迟下降约 100 倍,端到端生成速度提升 7.5 倍。
对照旧方法,结构化输出场景终于不用拼工程
过去要解决约束解码的延迟问题,主流路径是 outlines 这一类的有限自动机预编译,或者 llama.cpp 那一档的工程级优化。它们能拿到 2 到 3 倍的加速,但代价是对文法和实现细节挑剔。CFGzip 把”压缩搜索空间”这件事算法化,意味着即便文法很复杂,也能直接拿走主要收益,这对生产环境里跑严格 JSON 输出、Function Call schema 的服务尤其友好。
这项工作把”严格结构化”从奢侈品变回标配
过去工程师宁愿放弃严格 JSON 校验,也不愿吃下约束解码的延迟。CFGzip 一刀把延迟代价削到几乎可以忽略,意味着以后服务端跑工具调用、结构化抽取、Function Call 这一类任务时,不必再在”严格”和”快”之间二选一。算法层面的收益一旦稳定,工程团队就可以停掉那些复杂的 fallback 逻辑,把精力放回业务本身。