用于训练描述性字幕的区分性目标

CVPRMar, 2018

用于训练描述性字幕的区分性目标

Discriminability objective for training descriptive captions

Ruotian Luo, Brian Price, Scott Cohen, Gregory Shakhnarovich

TL;DR本文提出了一种改进图像标题生成方法的方法，通过在训练过程中加入与机器学习相关的损失函数来加强图像标题的区分度，从而提高生成标题的质量。

Abstract

One property that remains lacking in image captions generated by contemporary methods is discriminability: being able to tell two images apart given the caption for one of them. We propose a way to improve this aspect of caption generation. By incorporating into the captioning

image captioning discriminability training objective machine learning natural language processing

发现论文，激发创造

基于全局 - 局部辨别目标的细粒度图像描述

研究了如何提高生成图片标题的准确性，通过设计全局和局部辨别性约束，使生成的标题更加精细化和具体化，并在 MS-COCO 数据集上进行了评估和自检实验。

Jul, 2020

图像字幕的对比学习

本文提出一种基于对比学习的图像字幕生成方法，即在参考模型的基础上，通过两个约束条件，鼓励生成独特的字幕，从而提高字幕的质量和独特性。我们在两个挑战性数据集上测试了该方法，并证明它是通用的并可用于不同结构的模型。

Oct, 2017

使用部分标注数据自检索进行图像字幕生成

该论文描述了一种基于自检索模块的图像字幕生成框架，通过训练引导生成鉴别性的字幕并无需人工标注，从而提高图像字幕的性能。

Mar, 2018

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

具有判别性微调的跨领域图像字幕生成

本文提出在自我监督的证明性沟通目标情况下对预先训练的神经字幕系统进行微调，使其生成更详细的图像描述，并在 Conceptual Captions 数据集上进行验证。

Apr, 2023

通过对抗式学习生成多样且准确的视觉描述

提出一种基于条件生成对抗网络的比较式对抗学习框架，能够在图像描述任务中生成不仅准确而且多样化的描述语句。

Apr, 2018

基于分组的记忆关注图像独特描述

本研究提出了一种基于组的独特字幕模型 (GdisCap)，使用组内图像比较方法来提高图像字幕的独特性，并引入了基于组的记忆关注机制 (GMA) 来突出每个图像的唯一性，从而提高字幕的独特性。实验结果表明所提出的方法在准确性和独特性方面均表现出最先进的性能。

Aug, 2021

用对抗训练将机器字幕匹配到人类字幕

通过对抗训练结合 Gumbel 抽样，将图像标题生成器的训练目标从复制 groundtruth 标题更改为生成一组无法区分于人类生成的标题，从而生成更多元、不太偏斜的标题，统计上也更匹配人类。

Mar, 2017

走向对图片的独特和信息丰富的字幕

本文通过实证实验对现代的图像标注系统和评价指标进行了分析，并引入了一种新的独特度度量标准 SPICE-U，该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。

Sep, 2020

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。

Jan, 2017