李飞飞开源 28 万亿像素图像库：12.3k 星支持商业研发

李飞飞团队开源大规模视觉训练图像库示意 — 28 万亿像素，1 亿张图，明确写着可商用

李飞飞团队又交出一份重量级数据集。这次开源的是一个总规模达 28 万亿像素的视觉训练图像库，覆盖约 1 亿张图像，仓库已收获 12.3k 星。项目页明确标注：“支持商业研发使用。” 在视觉数据合规越来越紧的当下，这一条比规模本身更有分量。

1 亿张图、28 万亿像素是什么概念

把 28 万亿像素拆开看更直观：单图平均像素约 28 万，相当于约 600×467 的视觉训练标准尺寸。1 亿张图的体量已经接近 LAION-400M 的四分之一，但相比 LAION 这种以网络抓取为主的库，团队这次的核心动作是”用大模型对图像做强化训练前的预处理”——做了去重、低质过滤、版权风险标记、内容标签校对四步质量管控。这意味着拿来直接训模型，前期清洗成本会显著降低。

“可商用”这三个字写在 README 第一屏

视觉数据集的合规问题这两年频繁出事，从 LAION 因儿童保护问题被下架，到 Stability、Midjourney 被画师集体起诉。商用许可的明确标注不是小事。李飞飞团队在 README 第一屏就贴出条款摘要：允许商业用途、要求保留来源声明、对包含可识别人脸的子集附加合规子许可。配套还提供了一份 jsonl 格式的”溯源索引”，企业用户在内部审计时可以一行行核对来源。

视觉模型的下一道分水岭是数据合规

这两年视觉模型的能力差距正在被拉平，差异化越来越多落到”你敢拿来商用吗”。一个明确标注可商用、又附带溯源索引的大体量库，对中型创业公司是非常稀缺的弹药。它降低了”被起诉”的隐性成本，相当于给模型团队多腾出几个月迭代窗口。后续值得关注的是，使用方在自家产品里复用该库训练时，是否会自发把改动也回传社区，这一回路才能让数据集真正有自我演化的可能。

参考：李飞飞团队主页

李飞飞团队开源 28 万亿像素图像库：12.3k 星支持商用

1 亿张图、28 万亿像素是什么概念

“可商用”这三个字写在 README 第一屏

视觉模型的下一道分水岭是数据合规

相关推荐