【论文解读】02. LAION-5B: 训练下一代图文模型的大规模开放数据集

LAION数据集 机器学习 图像处理 数据管理 开源模型
LAION-5B是由德国非盈利组织LAION发布的大规模开放数据集,包含5850亿对图像-文本数据,涵盖2320亿对英文、2260亿对其他100种语言以及127亿未检测到语言的数据。该数据集旨在训练下一代图文模型,支持生成模型(如DALL-E、Stable Diffusion)、对比学习模型(如CLIP)和零样本分类模型。数据集提供了图像URL、元数据、KNN索引、图像嵌入、安全标签和水印标记等信息。开发团队通过分布式爬虫抓取图像,并使用CLIP计算图像与文本的相似度,过滤低质量或非法内容。此外,团队还开发了水印检测和NSFW内容识别模型,以进一步清理数据。然而,数据集的版权问题未得到明确处理,引发创作者的担忧。
文章内容
思维导图
常见问题
社交分享

背景: LAION数据集是什么数据集

LAION是一个在德国的非盈利性组织,主要从事大规模机器学习和数据管理研究,会公布一些开放的数据集,代码和机器学习模型。他们接受了Stability,Hugging face,Doodlebot等公司和一些实验室的资助。

LAION数据集是指LAION发布的以LAION开头命名的数据集,主要是图像-文本数据集

包括了:

  • LAION-400M
  • LAION5B
  • LAION-coco
  • LAION translated
  • LAION5B High-Res
  • LAION Aesthetics
  • LAION-3D

LAION-400M和LAION5B 可以用于训练:

  • 生成模型: 图像-文本生成模型,包括DALL-E这种自回归模型,GLIDE和Stable Diffusion这种扩散模型

  • 使用contrastive losses的模型: 像CLIP

  • 分类模型: zero-shot 分类模型

LAION-5B: 训练下一代图文模型的大规模开放数据集

  • 标题: LAION-5B: An open large-scale dataset for training next generation image-text models
  • 单位: laion.ai团队
  • 链接: https://arxiv.org/abs/2210.06423
  • 代码: 无代码

LAION-5B是一个5850亿对的图文数据,包括了2320亿对英文,2260亿对其他100种语言和127亿没有检测到语言的数据。

可以点击下面的链接访问这个数据集,官方提供了搜索。

clip-retrieval: https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn5.laion.ai&index=laion5B&useMclip=false

这个数据集包括下面的数据:

  • 所有5850亿对图像的URL和元数据
  • 一个KNN的索引,主要是支持在这个1.6TB大小的数据集快速搜索
  • 一个Clip Vi-L/14 的图像embeddings (9TB)
  • 一个基于这个数据集的图文检索demo,就是上面的clip-retrieval
  • 基于这个数据集的安全标签(50GB)
  • 这个数据集有水印的标记(50GB)

图像对有以下数据:

图像抓取

开发团队的工作流程如上图,开始是分布式爬虫,然后下载图片文字对,然后对内容进行分析处理,最后存储。

图像分别来自数百万个域名,然后用CLIP对图像文本对进行推理,计算图像和文本的相似度,相似度评分低的会删除,这个阈值英文为0.28,其他为0.26。

除了删除相似度低的图像文本对外,还会对一些不符合要求的图文对进行删除,包括了:

  • 图像过小或过大,文本太小或太长
  • 图像重复
  • 一些非法内容

下面是所有数据集的样本统计:

英文样本统计

多语言样本

无语言样本

特殊处理

水印问题

水印的图像是一个很大的问题,有人已经发现了生成的图像中会存在水印的情况。虽然开发团队已经处理了大部分的水印。

他们是用了9万个样本,45222个水印和44778个没有水印,训练了一个识别水印的模型来识别了所有的图片,有水印会被丢弃。但是有水印和无水印其实也存在模糊,比如底部有小透明文字的图片被一些人认为是水印,而另一些人则不这么认为,所以生成的图像是有可能有水印的。

水印模型已经开源了,链接:https://github.com/LAION-AI/watermark-detection

NSFW图像处理

NSFW是Not Safe For Work的缩写,主要指成人图像等不合适的内容。开发团队也训练了一个模型来识别这些内容,然后把识别到的图像都删除了。 训练集有3000个样本,分类器准确率为0.96。

模型和代码也开源了,链接: CLIP-based-NSFW-Detector

图像版权问题

论文中,有一个大家比较关心的点没有被提到,那就是来自这数百万个域名的5850亿个图像的版权是怎么样的。

可以肯定的是,开发者们使用爬虫爬取这些图像和后期处理时都没有考虑过版权。 很多创作者也通过公开的搜索工具搜到了自己的作品,作品被用来训练,这也给创作者们带来了一些被取代焦虑。

关于版权这个话题,后面一直会有争论,就看开发者们和创作者们怎么博弈了。就目前的数据集处理流程来讲,如果自己的作品不想被用来训练,只能在公布的时候打上水印,但这又是创作者们不想看到的。

参考资源:

  1. https://arxiv.org/abs/2210.06423
  2. https://laion.ai/blog/laion-5b/

思维导图生成中,请稍候...

问题 1: LAION-5B 数据集的主要用途是什么?
回答: LAION-5B 数据集主要用于训练下一代图像-文本模型,包括生成模型(如 DALL-E、GLIDE 和 Stable Diffusion)、使用对比损失的模型(如 CLIP)以及零样本分类模型。

问题 2: LAION-5B 数据集的规模有多大?
回答: LAION-5B 数据集包含 5850 亿对图像-文本数据,其中包括 2320 亿对英文数据、2260 亿对其他 100 种语言数据以及 127 亿对未检测到语言的数据。

问题 3: LAION-5B 数据集如何处理水印问题?
回答: 开发团队使用了一个基于 9 万个样本训练的水印检测模型来识别并删除带有水印的图像。然而,由于水印定义的模糊性,生成的图像仍可能包含水印。

问题 4: LAION-5B 数据集如何处理不安全内容(NSFW)?
回答: 开发团队训练了一个基于 CLIP 的 NSFW 检测模型,准确率为 0.96,用于识别并删除成人内容等不安全图像。

问题 5: LAION-5B 数据集是否考虑了图像版权问题?
回答: 在数据集的创建过程中,开发团队并未明确考虑图像版权问题。创作者可以通过为作品添加水印来防止其被用于训练,但这可能影响作品的展示效果。

问题 6: LAION-5B 数据集如何确保图像-文本对的质量?
回答: 数据集通过删除相似度低的图像-文本对、过滤过小或过大的图像、过短或过长的文本、重复图像以及非法内容来确保数据质量。

问题 7: LAION-5B 数据集提供了哪些附加资源?
回答: 数据集提供了图像的 URL 和元数据、KNN 索引、CLIP Vi-L/14 的图像嵌入、图文检索演示、安全标签以及水印标记等附加资源。

问题 8: 如何访问和搜索 LAION-5B 数据集?
回答: 可以通过官方提供的 clip-retrieval 工具访问和搜索 LAION-5B 数据集,链接为:clip-retrieval

问题 9: LAION-5B 数据集的开发团队是谁?
回答: LAION-5B 数据集由德国的非盈利组织 LAION 开发,团队接受了 Stability、Hugging Face、Doodlebot 等公司和实验室的资助。

问题 10: LAION-5B 数据集的语言分布情况如何?
回答: 数据集中 2320 亿对为英文,2260 亿对为其他 100 种语言,127 亿对未检测到语言。