MONET 把开源图文数据集拉到 1.2 亿对
5 月 22 日 arXiv 2605.21272 上线的 MONET 是一份开源图文配对数据集,规模 1.2 亿对,全部 CC-BY 兼容许可。作者团队来自上海 AI Lab、中科大与香港中文大学,论文标题《MONET: Multi-modal Open Network for Efficient Training》。同期发布的还有用 MONET 训出的 4B 参数扩散模型 MONET-Diffusion,COCO-Captions 上 zero-shot CLIP-T 0.319,超过同规模 SD3-Medium 的 0.314。

开源数据的真实困境
过去三年开源图文数据集只剩 LAION 一根独苗,且自 2023 年下架后再也没合规重发。社区里能拿到的合法图文对,要么是 COCO(30 万对,规模太小)、CC12M(1200 万对,质量参差),要么是 DataComp(13 亿对,但许可不明朗)。商用扩散模型训练一旦想用 LAION 替代品,立刻面临”质量降一档、版权风险升一档”的两难。MONET 论文 Sec.1 直接写了这个矛盾——”开源社区训出 SOTA 的最大障碍不是算法,是合规数据”。
团队的应对策略是从公开领域和 CC-BY 来源彻底重建。具体三条路:Wikimedia Commons 的 CC0/CC-BY 图片(约 4500 万张)、PD-USGov 政府公开图(约 2000 万)、合作博物馆与图书馆开放藏品(约 5500 万)。每张图都做了三重筛选——License 校验(必须 CC-BY 或更宽)、安全分类(NSFW、暴力、儿童识别)、美学评分(≥6 分,1-10 量表)。最终落到 1.2 亿对,比 LAION-400M 小但质量更稳。
caption 怎么写:三模型集成
原始图片附带的人工 caption 普遍偏短、偏 metadata(”Eiffel Tower, Paris, France”),不适合训扩散模型。团队走了 recaption 路线——用 GPT-4V、Gemini 1.5 Pro、Claude 3 Opus 三个模型分别生成长 caption,再用一个 7B 的裁判模型从三份候选中选最准确的一份,或合成一份新的。
三模型集成的好处是规避单一 caption 模型的偏好——GPT-4V 倾向描述构图、Gemini 倾向描述场景、Claude 倾向描述情绪。集成后的 caption 平均 89 token,比 LAION 的 14 token 长出 6 倍以上,且包含细节、风格、构图三类信息的概率分别提升到 76%、82%、61%。
论文 Table 2 给了 caption 质量的人工评测——300 个样本由 5 名标注员盲评,MONET caption 的”准确度+丰富度”综合得分 4.21(5 分制),LAION 是 2.89,CC12M 是 3.07,DataComp 是 3.34。
4B 扩散模型用 MONET 训出的成绩
团队用 MONET-Diffusion 验证数据集质量。模型采用 DiT-XL 架构,4B 参数,训练 700M token、约 12 天 64×H100。在三组 benchmark 上的 zero-shot 表现:
- COCO-Captions CLIP-T 0.319,FID 8.7(SD3-Medium 4B 是 0.314 / 9.1)
- VBench 综合分 0.812(同规模基线 0.798)
- HPSv2.1 人类偏好得分 0.293(同规模基线 0.281)
这些数字本身没拉开代际差距,但有意思的是它们用的是 1.2 亿对而非 LAION 几亿到十几亿对。换句话说,数据质量翻倍可以让数据规模缩到 1/3-1/4,整体训练成本下降一个台阶。论文里的对比数据——同样 4B 参数、同样 700M token,用 LAION-400M 训得到 CLIP-T 0.298,比 MONET 低 0.021。
给扩散模型阵营留下的位置
MONET 不是 LAION 的替代品(规模差 4 倍),但是它把”开源 + 合规 + 高质量”三个属性同时拿到了同一份数据集。这对几类用户特别关键——一是国内禁止使用 LAION 衍生数据的合规团队,二是教育研究场景(不能拿带版权风险的数据训模型发论文),三是商用扩散产品在欧盟 AI Act 落地后需要可溯源数据来源。
许可上的细节值得注意。CC-BY 要求”署名”,意味着用 MONET 训出的模型在公开使用时需要在文档里标注数据集来源。MONET 论文给了一份机械的 attribution 工具——把每张图的来源汇总成 BibTeX-like 的 DATASET_CITATIONS.md,团队可以直接 commit 进自己的模型 repo。这是社区第一次把 attribution 工程化。
另一个值得跟进的方向是 MONET 团队预告的”v2 计划”——他们会和 Common Crawl Foundation 合作,从 web 公开数据里筛 CC-BY 图片,目标是把数据集扩到 5 亿对。如果这一步能落地,开源扩散模型的训练数据将第一次和闭源模型站到同一规模量级。
更想说的是为什么这种工作没人做
过去两年开源社区不缺愿意训模型的力量,但极少有人愿意做数据集——因为版权、合规、清洗成本极高,论文 citation 远不如算法工作。Stability AI 解散后,”开源大模型基础设施”的角色一度真空。MONET 项目从启动到发布历时 14 个月,背后是中科院、上海 AI Lab、港中大三方各出研究员、机构提供算力的协作模式。这种由学术机构兜底的开源数据建设模式,未来几年大概率会成为开源 AI 的主要数据来源——商业公司不再有动力做无偿贡献,但学术团队有论文压力。
从这个角度看,MONET 比某个新模型更值得关注。模型 SOTA 每个月都换,但能让全球研究者复现 SOTA 的合规数据集只有少数几份。MONET 进了那张短名单。
参考链接: