大规模网页图像 - 文本数据集用于视觉概念理解

Jan, 2024

大规模网页图像 - 文本数据集用于视觉概念理解

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli...

TL;DR通过商业购物网站提供的大规模公共数据集‘Let's Go Shopping (LGS)’，我们发现现存基准数据集的分类器在电子商务数据上无法很好地进行泛化，而特定的自我监督视觉特征提取器则可以更好地进行泛化，此外，LGS 数据集的高质量电子商务特定图像和双模态性质，使其对于视觉 - 语言双模态任务具有优势，可以帮助图像生成丰富的标题，并实现电子商务风格的文本到图像转换。

Abstract

Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets

neural networks annotated datasets data collection let's go shopping dataset vision-language applications

发现论文，激发创造

购物查询数据集：用于提升产品搜索的大规模 ESCI 基准

本文介绍了一个大型 Amazon 搜索数据集 —— 购物查询数据集，他包含约 130 万个搜索查询，用于研究如何通过机器学习和数据挖掘技术来提高搜索结果的质量。购物查询数据集被广泛地应用在 KDD Cup '22 挑战赛中，包括如下三个评价任务：排序搜索结果列表、将产品结果分类成相关类别和为给定查询寻找替代产品。购物查询数据集可能会成为未来产品搜索领域的黄金标准。

Jun, 2022

Retail-786k：大规模可视化实体匹配数据集

通过大规模的基于商品广告传单的手动注释高清产品图像数据集，该研究提出了一种名为 “视觉实体匹配” 的学习问题，需要使用新颖的方法将例子中的视觉等价类转移到新的数据上，以解决当前普通图像分类和检索算法无法解决的问题，并旨在为此类算法提供基准。

Sep, 2023

RSGPT：遥感视觉语言模型与基准

大规模语言模型的出现显著推动了人工智能的快速发展，并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而，目前的研究主要集中在视觉识别任务上，缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集，这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同，RSICap 包括 2,585 个人工注释的字幕，具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述，包括场景描述（例如居住区、机场或农田）以及对象信息（例如颜色、形状、数量、绝对位置等）。为了促进在 RS 领域中对视觉语言模型的评估，我们还提供了一个基准评估数据集 RSIEval，它包括人工注释的字幕和视觉问答对，可以全面评估在 RS 背景下的视觉语言模型。

Jul, 2023

LAION-5B: 用于训练下一代图像 - 文本模型的大规模开放数据集

LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集，许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调，这个数据集的开放也将推动更多基于大规模多模型的研究。

Oct, 2022

eProduct: 应对产品识别挑战的百万级视觉搜索基准

本文介绍了 eProduct 数据集的创建，该数据集包含 250 万个产品图片。eProduct 可作为一个训练集和评估集来加速自监督学习、弱监督学习和多模态学习等领域的发展，特别是针对细粒度识别问题，如视觉搜索。通过基于此数据集训练的基线模型的性能，分析了 eProduct 数据集的多样性和使用结果。

Jul, 2021

卫星字幕：大规模语言模型助力标注

通过使用遥感图像领域的 RSICD 数据集中提供的字幕，本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题，并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。

Dec, 2023

V$^2$L：将视觉和视觉语言模型应用于大规模产品检索

本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合，运用 20 个模型的结合方式，在对 coarse labels 进行两阶段训练的基础上，进行了精细化的自我监督训练。此外，该模型通过使用文本描述训练图像作为监督信号，对图像编码器进行了微调。最终，该模型达到了 0.7623 MAR@10 的成绩，超过了所有竞争对手。

Jul, 2022

一个基准超市数据集：来自单视图的真实世界点云

介绍了一种名为 3DGrocery100 的大规模食品数据集，用于细粒度的食品目标识别，包括 100 个类别，由 87,898 个 3D 点云和 10,755 个 RGB-D 单视图图像创建而成，并在 6 个最新的 3D 点云分类模型以及少样本学习和持续学习的分类任务中进行了测试。

Feb, 2024

基于街拍图像的大规模视觉推荐

本文提出了四个数据驱动模型用于大规模的视觉推荐系统，这些模型可以有效地利用大量的时尚图片及其丰富的元数据，通过对大规模数据集的深入实验对这些算法进行了分析，并在颜色科学的基础上对其进行了基线，同时展示了从这些实验中学到的关键时尚见解并介绍了一个可以用于未来视觉研究的大规模时尚图像注释数据集（Fashion-136K）。

Jan, 2014

Products-10K：一项大规模产品识别数据集

电子商务日益发展，零售 AI 系统需要自动识别高准确度的 SKU 级别的产品，本研究构建了一个包含 10,000 个人工标注细粒度 SKU 级别产品的图像数据集，并针对细粒度产品识别提出了多种有用的技巧。

Aug, 2020