A-CAP: 带有常识知识的预测字幕生成

CVPRApr, 2023

A-CAP: 带有常识知识的预测字幕生成

A-CAP: Anticipation Captioning with Commonsense Knowledge

Duc Minh Vo, Quoc-An Luong, Akihiro Sugimoto, Hideki Nakayama

TL;DR通过引入一种新任务，即预期字幕，来模拟人类基于时间顺序的视觉暗示进行未来思考的能力，并提出了一种名为 A-CAP 的模型，该模型将常识知识并入预训练的视觉和语言模型中，使其能够进行预期字幕，并在定制的视觉叙述数据集上进行定量和定性评估，A-CAP 优于其他图像字幕方法，为预期字幕建立了一个强大的基线，同时解决了该任务的内在挑战。

Abstract

Humans possess the capacity to reason about the future based on a sparse collection of visual cues acquired over time. In order to emulate this ability, we introduce a novel task called anticipation captioning, which generates a caption for an unseen oracle image using a sparsely

anticipation captioning temporally-ordered set a-cap vision-language model visual storytelling dataset

发现论文，激发创造

Video2Commonsense: 生成通识描述以丰富视频字幕

通过生成视频常识描述（包括解释动机、影响和描述人物特点）的方法，结合开放式视频常识问答，可以提升通过字幕来理解视频的能力。

Mar, 2020

PromptCap：基于提示的任务感知图像字幕生成

研究了通过引入 PromptCap 这一基于控制生成描述的图像标题模型，用于解决直接使用通用标题生成模型缺乏对视觉细节描述的问题，提高了知识型视觉问答任务的准确性。

Nov, 2022

有目的的字幕制作：CapWAP

本文提出了一种叫做 “Captioning with a Purpose” 的新任务，使用问题 - 回答对代替传统的参考字幕进行训练和后推理评估，并使用强化学习直接优化旨在满足用户信息需求的结果。这种目的性字幕系统在使用字幕作为上下文时，能够比其通用对应物更好地预测和满足特定信息需求，在多种情况下演示了这一定论的有效性。

Nov, 2020

RECAP：检索增强音频字幕

RECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

ICECAP: 信息聚合的实体感知图像描述

通过使用新闻文章提供的背景知识，我们提出了一种信息集中的实体感知新闻图片字幕（ICECAP）模型，该模型从句子级别到单词级别逐步集中于相关信息，并在 BreakingNews 和 GoodNews 数据集上进行广泛实验，证明了模型的有效性。

Aug, 2021

TextCaps：一种带有阅读理解的图像字幕数据集

该研究创建了一个新的数据集 TextCaps，涉及 28k 张图片和 145k 个标题，用于挑战计算机视觉模型识别图像中的文本，与视觉环境进行关联，并决定要复制或释义文本的哪个部分。研究表明，这个新的数据集提供了许多前所未有的技术挑战。

Mar, 2020

通过内容多样性探索实现准确的基于文本的图像描述

本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Apr, 2021

RefineCap: 图像字幕的概念感知细化

该论文提出了一种新型模型 RefineCap，使用解码器引导的视觉语义来完善语言解码器的输出词汇，并隐式地学习图像与视觉标签词之间的映射，其提出的视觉概念完善方法可允许生成器关注图像中的语义细节，从而生成更具有语义描述性的标题。在与以前基于视觉概念的模型相比，我们的模型在 MS-COCO 数据集上实现了优越的性能。

Sep, 2021

大规模的新物体字幕生成

研究了如何从其他数据源中学习视觉概念，并创建了一个大规模的基准来评估新图像说明模型可以从中获得这些视觉概念的能力。

Dec, 2018

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023