李飞飞团队开源 28 万亿像素图像库:12.3k 星支持商用

AI资讯
李飞飞团队开源大规模视觉训练图像库示意
28 万亿像素,1 亿张图,明确写着可商用

李飞飞团队又交出一份重量级数据集。这次开源的是一个总规模达 28 万亿像素的视觉训练图像库,覆盖约 1 亿张图像,仓库已收获 12.3k 星。项目页明确标注:“支持商业研发使用。” 在视觉数据合规越来越紧的当下,这一条比规模本身更有分量。

1 亿张图、28 万亿像素是什么概念

把 28 万亿像素拆开看更直观:单图平均像素约 28 万,相当于约 600×467 的视觉训练标准尺寸。1 亿张图的体量已经接近 LAION-400M 的四分之一,但相比 LAION 这种以网络抓取为主的库,团队这次的核心动作是”用大模型对图像做强化训练前的预处理”——做了去重、低质过滤、版权风险标记、内容标签校对四步质量管控。这意味着拿来直接训模型,前期清洗成本会显著降低。

“可商用”这三个字写在 README 第一屏

视觉数据集的合规问题这两年频繁出事,从 LAION 因儿童保护问题被下架,到 Stability、Midjourney 被画师集体起诉。商用许可的明确标注不是小事。李飞飞团队在 README 第一屏就贴出条款摘要:允许商业用途、要求保留来源声明、对包含可识别人脸的子集附加合规子许可。配套还提供了一份 jsonl 格式的”溯源索引”,企业用户在内部审计时可以一行行核对来源。

视觉模型的下一道分水岭是数据合规

这两年视觉模型的能力差距正在被拉平,差异化越来越多落到”你敢拿来商用吗”。一个明确标注可商用、又附带溯源索引的大体量库,对中型创业公司是非常稀缺的弹药。它降低了”被起诉”的隐性成本,相当于给模型团队多腾出几个月迭代窗口。后续值得关注的是,使用方在自家产品里复用该库训练时,是否会自发把改动也回传社区,这一回路才能让数据集真正有自我演化的可能。


参考:李飞飞团队主页