基于问题控制的文本感知图像描述

MMAug, 2021

基于问题控制的文本感知图像描述

Question-controlled Text-aware Image Captioning

Anwen Hu, Shizhe Chen, Qin Jin

TL;DR本研究提出了一种新的受控图像文本生成任务 Qc-TextCap，并通过设计问题控制模型（GQAM）达到比现有模型更好的文本生成性能和问题答案能力，同时构建了两个数据集（ControlTextCaps 和 ControlVizWiz），提高了多样化和信息性。

Abstract

For an image with multiple scene texts, different people may be interested in different text information. Current text-aware image captioning models are not able to generate distinctive captions according to various information needs. To explore how to generate personalized text-aware

text-aware image captioning question-controlled text-aware image captioning gqam controltextcaps controlvizwiz

发现论文，激发创造

PromptCap：基于提示的任务感知图像字幕生成

研究了通过引入 PromptCap 这一基于控制生成描述的图像标题模型，用于解决直接使用通用标题生成模型缺乏对视觉细节描述的问题，提高了知识型视觉问答任务的准确性。

Nov, 2022

通过参考生成的段落标题来提高视觉问答能力

提出了一种视觉和文本问题回答（VTQA）模型，该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题，并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练，显著提高了现有模型的性能。

Jun, 2019

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

跨领域理解引导式图像字幕性能

本文提出了一种使用指导文本来控制图像标题关注点的方法，使用基于 Transformer 的多模态编码器来生成标题，通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题，指导标题模型可较好地泛化用于外部领域的图像和指导文本，提高模型性能的关键因素是增加样式的多样性。

Dec, 2020

通过内容多样性探索实现准确的基于文本的图像描述

本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Apr, 2021

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

通过问题驱动的图像标题作为提示，增强视觉问答能力

通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响，并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法，通过提取问题关键词、为每个图像 - 问题对生成描述，并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力，在零样本设置下能够实现竞争性的 GQA 性能。

Apr, 2024

多模态图像字幕生成（面向视觉障碍人士）

本研究提出用 AoANet 和指针 - 生成机制来改进图像字幕视频，实现文本检测和复制，提高图像字幕性能从而更好地帮助视力受损人士理解环境。

May, 2021

联合学习问答器和密集字幕生成器强化视觉语言预训练

本文提出一种名为 Joint QA and DC Generation (JADE) 的新方法，利用预训练的多模态模型及易于爬取的图像 - 文本对生成和过滤大规模的视觉问答和密集字幕数据集。我们将该方法应用于概念字幕（CC3M）数据集，生成了一个名为 CC3M-QA-DC 的新的数据集，在多任务方式预训练时，CC3M-QA-DC 可以改善各种骨干网络在各种下游任务中的性能，并与更多数据使用模型相比，我们生成的 CC3M-QA-DC 和更大的图像 - 文本数据集（例如 CC15M）相结合，在相同的计算条件下达到了有竞争力的结果。

May, 2023