TextCaps：一种带有阅读理解的图像字幕数据集

ECCVMar, 2020

TextCaps：一种带有阅读理解的图像字幕数据集

TextCaps: a Dataset for Image Captioning with Reading Comprehension

Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh

TL;DR该研究创建了一个新的数据集 TextCaps，涉及 28k 张图片和 145k 个标题，用于挑战计算机视觉模型识别图像中的文本，与视觉环境进行关联，并决定要复制或释义文本的哪个部分。研究表明，这个新的数据集提供了许多前所未有的技术挑战。

Abstract

image descriptions can help visually impaired people to quickly understand the image content. While we made significant progress in automatically describing images and optical character recognition, current appro

image descriptions visually impaired text recognition dataset creation image captioning

发现论文，激发创造

RedCaps：由民众创建、为民众服务的网络图像文本数据

通过 Reddit 收集了超过 1200 万个图像和文本对，构建了一个大规模的数据集，帮助机器学习模型学习生成富有多样性的图像描述并学习转换到许多下游任务，而无需使用复杂的筛选流程来保持数据质量。

Nov, 2021

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

通过内容多样性探索实现准确的基于文本的图像描述

本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Apr, 2021

Concadia: 朝着有目的的基于图像的文本生成

该研究旨在通过引入 Concadia 数据集，研究图像描叙和标题的不同传达作用，并证明使用图片出现的文本背景来增强图像到文本模型的效果，从而提高实际应用过程中生成文本的有用性。

Apr, 2021

MemeCap: 用于字幕和解释 Memes 的数据集

该研究介绍了一个新的数据集 MemeCap 及可视化模型综合能力的实验，验证了 VL 模型在理解 meme 中的视觉隐喻方面存在的问题。

May, 2023

卫星字幕：大规模语言模型助力标注

通过使用遥感图像领域的 RSICD 数据集中提供的字幕，本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题，并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。

Dec, 2023

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

基于文本数据的图像标题生成与交互提示

TIPCap 是一种基于文本数据的交互提示的图像标题生成方法，通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异，并在生成标题之前引入可选的提示信息，优于其他弱监督或无监督的图像标题生成方法，并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。

Mar, 2024

数据可视化字幕生成模型的线状图示

本文介绍了一种新的制图注释数据集 LineCap，还探讨了使用端到端的深度学习模型进行自动图注的相关应用和难点。

Jul, 2022

SciCap+: 研究科学图标题挑战的知识增强数据集

通过扩充 SciCap 数据集，创新性地将科技论文中的图例标注生成作为知识增强图像标注任务，提高自动标注的效率与准确性，并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。

Jun, 2023