GLAMI-1M: 多语言图像文本时尚数据集
LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集,许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调,这个数据集的开放也将推动更多基于大规模多模型的研究。
Oct, 2022
该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS),该数据集由超过一百万个来自 BBC 的新闻文章组成,跨越 20 种语言,目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务,并在多语言环境下使用各种最先进的摘要技术报告了基准分数。
Feb, 2023
Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.
Jun, 2024
介绍了 Multi30K 数据集以刺激多语言多模态研究,该数据集扩展了 Flickr 30K 数据集以及德国翻译和独立于原始英文描述的描述,并且可以用于多语言图像描述和多模态机器翻译。
May, 2016
本文提出了 Crossmodal-3600 数据集,其中包含 3600 张图片,涵盖了 36 种语言中所使用的地区,并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择,并在使用 XM3600 作为自动度量的黄金参考时,展示出与人工评估更高的相关性结果。
May, 2022
AI 与时尚设计的融合已成为一个前景光明的研究领域,本论文提出了首个 Fashion-Diffusion 数据集,该数据集包含超过一百万高质量的时尚图片和详细的文本描述,并提供了多个用于评估时尚设计模型性能的数据集,推动了 AI 驱动的时尚设计领域的标准化和未来研究的进展。
Nov, 2023
这篇文章介绍了一个公共的数据集 LAION-400M,包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引,能用于训练多模式语言视觉模型,进行零样本或少样本学习和迁移。
Nov, 2021
通过并行翻译圣经来开发广泛的主题,并利用众包工具收集标记数据,标注英文端的数据,并通过已对齐的诗句将标签映射到其他语言,从而为 1500 多种语言生成文本分类数据集,并对多个现有的多语言语言模型进行广泛基准测试。
May, 2023
本文介绍了一个由职业造型师提供的 293,008 张高清时尚图像和物品说明组成的数据集。我们在高分辨率图像生成和给定文本条件下的图像生成方面提供基准结果,并概述了一个基于此数据集的挑战的细节。
Jun, 2018
本研究使用 InFashAIv1 和 DeepFashion 数据集,使用 Show and Tell 算法生成时尚图片的描述,取得更好的效果,并发现对于非洲风格的时尚图片,联合训练提高了图像描述质量,表明西方风格数据的迁移学习是可行的,释放了 InFashAIv1 数据集以促进更多包容性工作。
Jun, 2021