跨领域理解引导式图像字幕性能

Dec, 2020

Understanding Guided Image Captioning Performance across Domains

Edwin G. Ng, Bo Pang, Piyush Sharma, Radu Soricut

TL;DR本文提出了一种使用指导文本来控制图像标题关注点的方法，使用基于 Transformer 的多模态编码器来生成标题，通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题，指导标题模型可较好地泛化用于外部领域的图像和指导文本，提高模型性能的关键因素是增加样式的多样性。

Abstract

image captioning models generally lack the capability to take into account user interest, and usually default to global descriptions that try to balance readability, informativeness, and information overload. On the other hand, →

image captioning vqa guiding text transformer-based multimodal encoder conceptual captions

发现论文，激发创造

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

PromptCap：基于提示的任务感知图像字幕生成

研究了通过引入 PromptCap 这一基于控制生成描述的图像标题模型，用于解决直接使用通用标题生成模型缺乏对视觉细节描述的问题，提高了知识型视觉问答任务的准确性。

Nov, 2022

文本引导的图像聚类

通过使用图像标题生成和视觉问答 (VQA) 模型生成文本，并基于生成的文本进行聚类，本研究在八个不同的图像聚类数据集中展示了得到的文本表示经常优于图像特征。此外，我们提出了一种基于计数的聚类解释方法，在聚类准确性不太高的情况下，基于关键词的解释能更好地描述聚类结果。整体而言，这项研究挑战了传统方法并为使用生成的文本进行图像聚类铺平了道路。

Feb, 2024

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

通过参考生成的段落标题来提高视觉问答能力

提出了一种视觉和文本问题回答（VTQA）模型，该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题，并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练，显著提高了现有模型的性能。

Jun, 2019

指导图像字幕模型生成更具体的字幕

基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Jul, 2023

基于问题控制的文本感知图像描述

本研究提出了一种新的受控图像文本生成任务 Qc-TextCap，并通过设计问题控制模型（GQAM）达到比现有模型更好的文本生成性能和问题答案能力，同时构建了两个数据集（ControlTextCaps 和 ControlVizWiz），提高了多样化和信息性。

Aug, 2021

通过问题驱动的图像标题作为提示，增强视觉问答能力

通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响，并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法，通过提取问题关键词、为每个图像 - 问题对生成描述，并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力，在零样本设置下能够实现竞争性的 GQA 性能。

Apr, 2024

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

可解释的、全局最优的基于图像概念的文本 grounding 预测

本文研究了文本 grounding 的问题，提出了一种统一的框架来有效地搜索所有可能的 bounding box 提议，通过训练的模型参数作为 word-embedding，实现了空间 - 图像关系的捕捉和解释性，实验表明本方法在 Flickr 30k Entities 和 ReferItGame 数据集上的表现要好于当前最先进的方法。

Mar, 2018