30 家机构齐聚巴黎,启动 Project Tapestry
AI Alliance 于 2026 年 5 月 7 日至 8 日在巴黎 FPT Software 总部召集了约 30 名来自全球的 AI 研究者、技术负责人和机构合作伙伴,正式启动 Project Tapestry。这是一个旨在通过全球联盟方式构建开源、主权前沿基础模型的项目。Yann LeCun 以 AI Alliance 首席科学顾问的身份参与,提出了”联邦训练”的技术框架:各参与方保留自身数据主权,通过模型更新而非原始数据实现协作。
这场为期两天的封闭工作坊产出了四项早期成果:联盟式前沿模型开发的初始架构、对主权数据和算力的共同承诺、围绕文化对齐和分布式权重更新的早期工作流,以及一个由 AI Alliance 非营利结构承载的组织模型。
为什么主权 AI 必须追上前沿性能
Tapestry 的核心论点直白且尖锐:如果主权 AI 系统在能力上显著落后于前沿模型,用户就不会大规模采用它。各国政府、企业和研究机构会继续依赖外部实验室构建的模型,即使这些模型不完全符合本地的法律、语言和文化需求。
但独立追赶前沿又几乎不可能。训练一个前沿基础模型所需的算力、数据和专业人才集中度极高,少数几家实验室掌握了绝大部分资源。Tapestry 提出的”第三条路”是:组建全球联盟共享基础模型训练,各参与方在此基础上进行本地化微调和部署,通过权重增量而非原始数据进行协作。
“反捕获”架构:主权由技术保障而非政策承诺
Aitomatic 的 Christopher Nguyen 在工作坊上提出了 Tapestry 的一个核心设计原则:反捕获(anti-capture)。他的论点是,主权不能仅仅依赖信任、合同或政策来保障,必须通过架构设计来强制执行。
具体而言,Tapestry 采用”N+1″架构:一个共享的基础模型加上多个主权衍生版本。联盟成员在本地数据上继续训练基础模型,将权重增量(而非原始数据)返回进行审查和聚合。微调、领域专精、文化适配和安全部署都在本地完成。IBM 的 Dean Wampler 进一步阐述了技术细节:权重增量聚合、周期频率权衡、版本化贡献历史、单个增量的回滚机制,以及借鉴开源软件治理的维护者审查权限。
这个架构设计回应了当前主权 AI 面临的两难:要么被前沿实验室锁定,要么独立发展但性能不足。Tapestry 试图用分布式训练和架构层面的保护来拆解这个矛盾。
数据优势在于多样性而非体量
封闭的前沿实验室已经消耗了海量公开网络数据。下一个能力前沿将取决于数据的多样性和真实度:国家级语言数据、文化遗产数据、科学和技术语料库、工业运营数据、机构知识,这些数据往往不能也不应该交给中心化提供商。
Tapestry 设计了弹性数据贡献模型:可以自由共享的开放数据;联盟可以训练但不能再分发的内容;仅保留在本地算力上、只分享模型更新的数据;完全在主权衍生版本中使用、联盟永远看不到的数据。这种灵活性让不同法律义务、商业敏感度和文化责任的参与者都能找到适合自己的参与方式。
主权 AI 不能只靠政策宣言
LeCun 在开场中把 AI 比作基础设施,而基础设施的趋势是走向开放。这个类比很准确,但忽略了一个现实:基础设施的开放从来不是自然发生的,它需要技术架构、组织模型和持续投入三者的配合。Tapestry 的巴黎工作坊证明全球范围内有足够的机构愿意坐到一起讨论技术方案,但讨论和交付之间还有巨大的工程鸿沟。这个项目能否成功,取决于它是否能在最短时间内完成从概念到可运行原型的跨越,而不沦为又一份签署了愿景声明却无实质进展的多边倡议。