指导图像字幕模型生成更具体的字幕

ICCVJul, 2023

指导图像字幕模型生成更具体的字幕

Guiding Image Captioning Models Toward More Specific Captions

Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen

TL;DR基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Abstract

image captioning is conventionally formulated as the task of generating captions for images that match the distribution of reference image-caption pairs. However, reference captions in standard captioning dataset

image captioning reference captions guidance scale autoregressive captioning model clip embedding space

发现论文，激发创造

一图胜千言：原则性重描述提升图像生成

通过重新标注语料库并以此为基础训练文本到图像模型，可以显著提高模型的图像质量和语义对齐，并减少训练与推理之间的差异，增加样例效率，使模型更好地理解标题和图像之间的关系。

Oct, 2023

使用部分标注数据自检索进行图像字幕生成

该论文描述了一种基于自检索模块的图像字幕生成框架，通过训练引导生成鉴别性的字幕并无需人工标注，从而提高图像字幕的性能。

Mar, 2018

独特的图像字幕化：借助 CLIP 引导强化学习的基准真实字幕

用训练图像字幕模型的教师强迫方法生成的样本非常通用，而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略，其中利用了不同方式的真实字幕，从而在保持高写作质量的同时生成高度独特的字幕。

Feb, 2024

跨领域理解引导式图像字幕性能

本文提出了一种使用指导文本来控制图像标题关注点的方法，使用基于 Transformer 的多模态编码器来生成标题，通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题，指导标题模型可较好地泛化用于外部领域的图像和指导文本，提高模型性能的关键因素是增加样式的多样性。

Dec, 2020

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

图像字幕生成中的引导解码学习

本文提出了一种在编码器 - 解码器框架下加入引导网络的方法，以模拟输入图像的属性特征为该任务带来了显著的性能提升，并通过在 MS COCO 数据集上进行的实验进行了验证。

Apr, 2018

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022