GLAMI-1M: 多语言图像文本时尚数据集

Nov, 2022

GLAMI-1M: 多语言图像文本时尚数据集

GLAMI-1M: A Multilingual Image-Text Fashion Dataset

Vaclav Kosar, Antonín Hoskovec, Milan Šulc, Radek Bartyzal

TL;DRGLAMI-1M 是一个包含多语言、时尚产品图像及描述的最大分类数据集，共包含 191 个类别，通过人工标注的测试集和部分训练集对其进行高质量注释。该数据集可用于图像生成和文本分类，最佳 EmbraceNet 模型在使用视觉和文本特征的情况下达到了 69.7% 的准确率并展示了其具有挑战性的精细分类问题。

Abstract

We introduce GLAMI-1M: the largest multilingual image-text classification dataset and benchmark. The →

multilingual image-text classification fashion products fine-grained classification dataset

发现论文，激发创造

LAION-5B: 用于训练下一代图像 - 文本模型的大规模开放数据集

LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集，许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调，这个数据集的开放也将推动更多基于大规模多模型的研究。

Oct, 2022

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

mOSCAR：一个大规模的多语言和多模态的文档级语料库

Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.

Jun, 2024

Multi30K: 多语言英德图像描述

介绍了 Multi30K 数据集以刺激多语言多模态研究，该数据集扩展了 Flickr 30K 数据集以及德国翻译和独立于原始英文描述的描述，并且可以用于多语言图像描述和多模态机器翻译。

May, 2016

跨媒体 - 3600：一款大规模多语言多模态评估数据集

本文提出了 Crossmodal-3600 数据集，其中包含 3600 张图片，涵盖了 36 种语言中所使用的地区，并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择，并在使用 XM3600 作为自动度量的黄金参考时，展示出与人工评估更高的相关性结果。

May, 2022

质量与数量：揭示百万高质量时尚设计文本到图像合成的图片

AI 与时尚设计的融合已成为一个前景光明的研究领域，本论文提出了首个 Fashion-Diffusion 数据集，该数据集包含超过一百万高质量的时尚图片和详细的文本描述，并提供了多个用于评估时尚设计模型性能的数据集，推动了 AI 驱动的时尚设计领域的标准化和未来研究的进展。

Nov, 2023

LAION-400M：CLIP 过滤的 4 亿张图文对开放数据集

这篇文章介绍了一个公共的数据集 LAION-400M，包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引，能用于训练多模式语言视觉模型，进行零样本或少样本学习和迁移。

Nov, 2021

Taxi1500：1500 种语言文本分类的多语言数据集

通过并行翻译圣经来开发广泛的主题，并利用众包工具收集标记数据，标注英文端的数据，并通过已对齐的诗句将标签映射到其他语言，从而为 1500 多种语言生成文本分类数据集，并对多个现有的多语言语言模型进行广泛基准测试。

May, 2023

Fashion-Gen: 时尚生成数据集与挑战

本文介绍了一个由职业造型师提供的 293,008 张高清时尚图像和物品说明组成的数据集。我们在高分辨率图像生成和给定文本条件下的图像生成方面提供基准结果，并概述了一个基于此数据集的挑战的细节。

Jun, 2018

神经时尚图片字幕生成：考虑数据多样性

本研究使用 InFashAIv1 和 DeepFashion 数据集，使用 Show and Tell 算法生成时尚图片的描述，取得更好的效果，并发现对于非洲风格的时尚图片，联合训练提高了图像描述质量，表明西方风格数据的迁移学习是可行的，释放了 InFashAIv1 数据集以促进更多包容性工作。

Jun, 2021