MONET 开源图文数据集 1.2 亿对 4B 扩散模型超 SD3

MONET 把开源图文数据集拉到 1.2 亿对

5 月 22 日 arXiv 2605.21272 上线的 MONET 是一份开源图文配对数据集，规模 1.2 亿对，全部 CC-BY 兼容许可。作者团队来自上海 AI Lab、中科大与香港中文大学，论文标题《MONET: Multi-modal Open Network for Efficient Training》。同期发布的还有用 MONET 训出的 4B 参数扩散模型 MONET-Diffusion，COCO-Captions 上 zero-shot CLIP-T 0.319，超过同规模 SD3-Medium 的 0.314。

MONET 数据集样本分布与训练流程 — 1.2 亿对样本覆盖 27 类场景，平均 caption 长度 89 token。

开源数据的真实困境

过去三年开源图文数据集只剩 LAION 一根独苗，且自 2023 年下架后再也没合规重发。社区里能拿到的合法图文对，要么是 COCO（30 万对，规模太小）、CC12M（1200 万对，质量参差），要么是 DataComp（13 亿对，但许可不明朗）。商用扩散模型训练一旦想用 LAION 替代品，立刻面临”质量降一档、版权风险升一档”的两难。MONET 论文 Sec.1 直接写了这个矛盾——”开源社区训出 SOTA 的最大障碍不是算法，是合规数据”。

团队的应对策略是从公开领域和 CC-BY 来源彻底重建。具体三条路：Wikimedia Commons 的 CC0/CC-BY 图片（约 4500 万张）、PD-USGov 政府公开图（约 2000 万）、合作博物馆与图书馆开放藏品（约 5500 万）。每张图都做了三重筛选——License 校验（必须 CC-BY 或更宽）、安全分类（NSFW、暴力、儿童识别）、美学评分（≥6 分，1-10 量表）。最终落到 1.2 亿对，比 LAION-400M 小但质量更稳。

caption 怎么写：三模型集成

原始图片附带的人工 caption 普遍偏短、偏 metadata（”Eiffel Tower, Paris, France”），不适合训扩散模型。团队走了 recaption 路线——用 GPT-4V、Gemini 1.5 Pro、Claude 3 Opus 三个模型分别生成长 caption，再用一个 7B 的裁判模型从三份候选中选最准确的一份，或合成一份新的。

三模型集成的好处是规避单一 caption 模型的偏好——GPT-4V 倾向描述构图、Gemini 倾向描述场景、Claude 倾向描述情绪。集成后的 caption 平均 89 token，比 LAION 的 14 token 长出 6 倍以上，且包含细节、风格、构图三类信息的概率分别提升到 76%、82%、61%。

论文 Table 2 给了 caption 质量的人工评测——300 个样本由 5 名标注员盲评，MONET caption 的”准确度+丰富度”综合得分 4.21（5 分制），LAION 是 2.89，CC12M 是 3.07，DataComp 是 3.34。

4B 扩散模型用 MONET 训出的成绩

团队用 MONET-Diffusion 验证数据集质量。模型采用 DiT-XL 架构，4B 参数，训练 700M token、约 12 天 64×H100。在三组 benchmark 上的 zero-shot 表现：

COCO-Captions CLIP-T 0.319，FID 8.7（SD3-Medium 4B 是 0.314 / 9.1）
VBench 综合分 0.812（同规模基线 0.798）
HPSv2.1 人类偏好得分 0.293（同规模基线 0.281）

这些数字本身没拉开代际差距，但有意思的是它们用的是 1.2 亿对而非 LAION 几亿到十几亿对。换句话说，数据质量翻倍可以让数据规模缩到 1/3-1/4，整体训练成本下降一个台阶。论文里的对比数据——同样 4B 参数、同样 700M token，用 LAION-400M 训得到 CLIP-T 0.298，比 MONET 低 0.021。

给扩散模型阵营留下的位置

MONET 不是 LAION 的替代品（规模差 4 倍），但是它把”开源 + 合规 + 高质量”三个属性同时拿到了同一份数据集。这对几类用户特别关键——一是国内禁止使用 LAION 衍生数据的合规团队，二是教育研究场景（不能拿带版权风险的数据训模型发论文），三是商用扩散产品在欧盟 AI Act 落地后需要可溯源数据来源。

许可上的细节值得注意。CC-BY 要求”署名”，意味着用 MONET 训出的模型在公开使用时需要在文档里标注数据集来源。MONET 论文给了一份机械的 attribution 工具——把每张图的来源汇总成 BibTeX-like 的 DATASET_CITATIONS.md，团队可以直接 commit 进自己的模型 repo。这是社区第一次把 attribution 工程化。

另一个值得跟进的方向是 MONET 团队预告的”v2 计划”——他们会和 Common Crawl Foundation 合作，从 web 公开数据里筛 CC-BY 图片，目标是把数据集扩到 5 亿对。如果这一步能落地，开源扩散模型的训练数据将第一次和闭源模型站到同一规模量级。

更想说的是为什么这种工作没人做

过去两年开源社区不缺愿意训模型的力量，但极少有人愿意做数据集——因为版权、合规、清洗成本极高，论文 citation 远不如算法工作。Stability AI 解散后，”开源大模型基础设施”的角色一度真空。MONET 项目从启动到发布历时 14 个月，背后是中科院、上海 AI Lab、港中大三方各出研究员、机构提供算力的协作模式。这种由学术机构兜底的开源数据建设模式，未来几年大概率会成为开源 AI 的主要数据来源——商业公司不再有动力做无偿贡献，但学术团队有论文压力。

从这个角度看，MONET 比某个新模型更值得关注。模型 SOTA 每个月都换，但能让全球研究者复现 SOTA 的合规数据集只有少数几份。MONET 进了那张短名单。

参考链接：

MONET: Multi-modal Open Network for Efficient Training – arXiv 2605.21272

MONET 开源图文数据集发布