
李飞飞团队又交出一份重量级数据集。这次开源的是一个总规模达 28 万亿像素的视觉训练图像库,覆盖约 1 亿张图像,仓库已收获 12.3k 星。项目页明确标注:“支持商业研发使用。” 在视觉数据合规越来越紧的当下,这一条比规模本身更有分量。
1 亿张图、28 万亿像素是什么概念
把 28 万亿像素拆开看更直观:单图平均像素约 28 万,相当于约 600×467 的视觉训练标准尺寸。1 亿张图的体量已经接近 LAION-400M 的四分之一,但相比 LAION 这种以网络抓取为主的库,团队这次的核心动作是”用大模型对图像做强化训练前的预处理”——做了去重、低质过滤、版权风险标记、内容标签校对四步质量管控。这意味着拿来直接训模型,前期清洗成本会显著降低。
“可商用”这三个字写在 README 第一屏
视觉数据集的合规问题这两年频繁出事,从 LAION 因儿童保护问题被下架,到 Stability、Midjourney 被画师集体起诉。商用许可的明确标注不是小事。李飞飞团队在 README 第一屏就贴出条款摘要:允许商业用途、要求保留来源声明、对包含可识别人脸的子集附加合规子许可。配套还提供了一份 jsonl 格式的”溯源索引”,企业用户在内部审计时可以一行行核对来源。
视觉模型的下一道分水岭是数据合规
这两年视觉模型的能力差距正在被拉平,差异化越来越多落到”你敢拿来商用吗”。一个明确标注可商用、又附带溯源索引的大体量库,对中型创业公司是非常稀缺的弹药。它降低了”被起诉”的隐性成本,相当于给模型团队多腾出几个月迭代窗口。后续值得关注的是,使用方在自家产品里复用该库训练时,是否会自发把改动也回传社区,这一回路才能让数据集真正有自我演化的可能。
参考:李飞飞团队主页