通过内容多样性探索实现准确的基于文本的图像描述

CVPRApr, 2021

通过内容多样性探索实现准确的基于文本的图像描述

Towards Accurate Text-based Image Captioning with Content Diversity Exploration

Guanghui Xu, Shuaicheng Niu, Mingkui Tan, Yucheng Luo, Qing Du...

TL;DR本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Abstract

text-based image captioning (TextCap) which aims to read and reason images with texts is crucial for a machine to understand a detailed and complex scene environment, considering that texts are omnipresent in daily life. This task, however, is very challenging because an image often co

text-based image captioning machine understanding multi-caption generation anchor-captioner method content diversity

发现论文，激发创造

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

TextCaps：一种带有阅读理解的图像字幕数据集

该研究创建了一个新的数据集 TextCaps，涉及 28k 张图片和 145k 个标题，用于挑战计算机视觉模型识别图像中的文本，与视觉环境进行关联，并决定要复制或释义文本的哪个部分。研究表明，这个新的数据集提供了许多前所未有的技术挑战。

Mar, 2020

一幅画胜千言：用于生成多样化字幕和富有表现力图像的统一系统

该研究采用创意图像和文本生成 AI 系统，通过多模态框架实现了多样化的标题和图像创建，同时采用 Transformer 网络模型支持多种标题参考，采用非自回归解码策略实现实时推断。

Oct, 2021

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

基于文本数据的图像标题生成与交互提示

TIPCap 是一种基于文本数据的交互提示的图像标题生成方法，通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异，并在生成标题之前引入可选的提示信息，优于其他弱监督或无监督的图像标题生成方法，并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。

Mar, 2024

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023

C4Synth：跨说明文循环一致的文本到图像合成

该论文提出了一种基于深度生成模型的多个描述生成图片的方法，并通过对 CUB 和 Oxford-102 Flowers 数据集的实验结果证实了该方法的有效性。

Sep, 2018

MAGIC: 多模态关系图对抗推理，用于不同和不配对的基于文本的图像标题

研究了如何利用 unpaired training paradigm 生成多样化的文字图像描述，提出了 Multimodal relAtional Graph adversarIal inferenCe (MAGIC) 框架，并使用一种级联生成对抗网络从 multimodal graphs 中推断出相关联的多样化图像描述。

Dec, 2021

CapsFusion: 大规模重塑图像 - 文本数据

为了提供更高质量和更可扩展的多模态预训练数据，我们提出了 CapsFusion，一种先进的框架，利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明，CapsFusion 字幕在模型性能（例如，COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8％和 18.3％）、样本效率（比基准计算需求少 11-16 倍）、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。

Oct, 2023

基于问题控制的文本感知图像描述

本研究提出了一种新的受控图像文本生成任务 Qc-TextCap，并通过设计问题控制模型（GQAM）达到比现有模型更好的文本生成性能和问题答案能力，同时构建了两个数据集（ControlTextCaps 和 ControlVizWiz），提高了多样化和信息性。

Aug, 2021