图像字幕的对比学习

NIPSOct, 2017

Contrastive Learning for Image Captioning

Bo Dai, Dahua Lin

TL;DR本文提出一种基于对比学习的图像字幕生成方法，即在参考模型的基础上，通过两个约束条件，鼓励生成独特的字幕，从而提高字幕的质量和独特性。我们在两个挑战性数据集上测试了该方法，并证明它是通用的并可用于不同结构的模型。

Abstract

image captioning, a popular topic in computer vision, has achieved substantial progress in recent years. However, the distinctiveness of natural descriptions is often overlooked in previous work. It is closely re

image captioning distinctiveness contrastive learning reference model challenging datasets

发现论文，激发创造

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

独特的图像字幕化：借助 CLIP 引导强化学习的基准真实字幕

用训练图像字幕模型的教师强迫方法生成的样本非常通用，而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略，其中利用了不同方式的真实字幕，从而在保持高写作质量的同时生成高度独特的字幕。

Feb, 2024

基于预训练和对比学习的图像差异字幕生成

本文提出了一种基于自监督学习的图像差异描述任务的建模框架，并通过对比学习策略来提高视觉与语言的相关性，同时使用数据扩展方法利用多余的监督信息来拓宽有限的数据集，实验表明这种方法有效。

Feb, 2022

采用对比学习改进文本生成图像技术

本篇论文提出一种基于对比学习方法的文本到图像合成框架，旨在提升合成图像的质量和语义一致性，通过对 pretraining 和 GAN training 阶段进行改进，该方法在两个流行数据集上的实验结果表明，相对于 AttnGAN 和 DM-GAN，能够显著提高合成图像的质量。

Jul, 2021

通过对抗式学习生成多样且准确的视觉描述

提出一种基于条件生成对抗网络的比较式对抗学习框架，能够在图像描述任务中生成不仅准确而且多样化的描述语句。

Apr, 2018

用于训练描述性字幕的区分性目标

本文提出了一种改进图像标题生成方法的方法，通过在训练过程中加入与机器学习相关的损失函数来加强图像标题的区分度，从而提高生成标题的质量。

Mar, 2018

基于分组的记忆关注图像独特描述

本研究提出了一种基于组的独特字幕模型 (GdisCap)，使用组内图像比较方法来提高图像字幕的独特性，并引入了基于组的记忆关注机制 (GMA) 来突出每个图像的唯一性，从而提高字幕的独特性。实验结果表明所提出的方法在准确性和独特性方面均表现出最先进的性能。

Aug, 2021

无监督图像对图像翻译的对比学习

本文提出了一种无监督、基于对比学习的图像翻译方法，其主要思想是学习一个判别器，将不同的图像风格区分开来，并使其监督生成器将这些风格在图像之间进行转移。实验结果表明，该方法在视觉质量和翻译准确度方面优于当前领先的无监督基线模型。

May, 2021

基于全局 - 局部辨别目标的细粒度图像描述

研究了如何提高生成图片标题的准确性，通过设计全局和局部辨别性约束，使生成的标题更加精细化和具体化，并在 MS-COCO 数据集上进行了评估和自检实验。

Jul, 2020

基于跨模态相似性的课程学习在图像描述中的应用

该研究提出一种基于跨模态相似性的难度度量方法，用于图像字幕生成模型的训练，并在 COCO 和 Flickr30k 数据集上验证了其有效性，证明其在难样本和未见数据上表现出较高的泛化能力。

Dec, 2022