具有判别性微调的跨领域图像字幕生成

CVPRApr, 2023

具有判别性微调的跨领域图像字幕生成

Cross-Domain Image Captioning with Discriminative Finetuning

Roberto Dessì, Michele Bevilacqua, Eleonora Gualdoni, Nathanael Carraz Rakotonirina, Francesca Franzon...

TL;DR本文提出在自我监督的证明性沟通目标情况下对预先训练的神经字幕系统进行微调，使其生成更详细的图像描述，并在 Conceptual Captions 数据集上进行验证。

Abstract

neural captioners are typically trained to mimic human-generated references without optimizing for any specific communication goal, leading to problems such as the generation of vague captions. In this paper, we show that fine-tuning an out-of-the-box neural captioner with a self-super

neural captioners self-supervised discriminative communication clipcap blip conceptual captions dataset

发现论文，激发创造

基于全局 - 局部辨别目标的细粒度图像描述

研究了如何提高生成图片标题的准确性，通过设计全局和局部辨别性约束，使生成的标题更加精细化和具体化，并在 MS-COCO 数据集上进行了评估和自检实验。

Jul, 2020

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。

Jan, 2017

使用部分标注数据自检索进行图像字幕生成

该论文描述了一种基于自检索模块的图像字幕生成框架，通过训练引导生成鉴别性的字幕并无需人工标注，从而提高图像字幕的性能。

Mar, 2018

使用 CLIP 奖励的细粒度图像字幕生成

本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

May, 2022

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

用于训练描述性字幕的区分性目标

本文提出了一种改进图像标题生成方法的方法，通过在训练过程中加入与机器学习相关的损失函数来加强图像标题的区分度，从而提高生成标题的质量。

Mar, 2018

独特的图像字幕化：借助 CLIP 引导强化学习的基准真实字幕

用训练图像字幕模型的教师强迫方法生成的样本非常通用，而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略，其中利用了不同方式的真实字幕，从而在保持高写作质量的同时生成高度独特的字幕。

Feb, 2024

使用条件生成式对抗网络改进图像标注

本文提出了一种基于条件生成对抗网络的图像描述框架，添加了 “辨别器” 网络去逐步判断生成的描述是人类描述还是机器生成的，该算法是通用的，能够提高任何现有的基于 RL 的图像描述框架，实验表明，这种方法在不同的语言评估指标上有一致的改进。

May, 2018

通过对抗式学习生成多样且准确的视觉描述

提出一种基于条件生成对抗网络的比较式对抗学习框架，能够在图像描述任务中生成不仅准确而且多样化的描述语句。

Apr, 2018

神经图像字幕中的图像表示和新领域

研究了自动生成字幕的最新进展是否主要是由于语言模型，实验发现，即使提供了质量较差的图像表示，最先进的神经字幕算法仍能产生高质量的字幕并对多个字幕数据集的适当性进行了实验。

Aug, 2015