基于预训练和对比学习的图像差异字幕生成

AAAIFeb, 2022

基于预训练和对比学习的图像差异字幕生成

Image Difference Captioning with Pre-training and Contrastive Learning

Linli Yao, Weiying Wang, Qin Jin

TL;DR本文提出了一种基于自监督学习的图像差异描述任务的建模框架，并通过对比学习策略来提高视觉与语言的相关性，同时使用数据扩展方法利用多余的监督信息来拓宽有限的数据集，实验表明这种方法有效。

Abstract

The image difference captioning (IDC) task aims to describe the visual differences between two similar images with natural language. The major challenges of this task lie in two aspects: 1) fine-grained visual differenc

image difference captioning fine-grained visual differences self-supervised learning contrastive learning data expansion

发现论文，激发创造

CLIP4IDC：基于 CLIP 的图像差异描述

CLIP4IDC 提出一种自适应训练流程来解决传统方法中存在的预训练数据集领域差异和图片变化编码不充分等问题，以解决图像差异描述任务，实验结果表明其有效性。

Jun, 2022

图像字幕的对比学习

本文提出一种基于对比学习的图像字幕生成方法，即在参考模型的基础上，通过两个约束条件，鼓励生成独特的字幕，从而提高字幕的质量和独特性。我们在两个挑战性数据集上测试了该方法，并证明它是通用的并可用于不同结构的模型。

Oct, 2017

L2C: 描述视觉差异需要对个体进行语义理解

本文介绍了一种 Learning-to-Compare 模型，该模型能够理解两个图像之间的语义结构并学习描述每个图像，从而有效地进行图像比较和生成描述。使用该模型可以在 Birds-to-Words 数据集上实现比基准模型更好的性能，且同时在自动评估和人类评估中表现良好。

Feb, 2021

采用对比学习改进文本生成图像技术

本篇论文提出一种基于对比学习方法的文本到图像合成框架，旨在提升合成图像的质量和语义一致性，通过对 pretraining 和 GAN training 阶段进行改进，该方法在两个流行数据集上的实验结果表明，相对于 AttnGAN 和 DM-GAN，能够显著提高合成图像的质量。

Jul, 2021

图像字幕生成器也是可扩展的视觉学习者

本文通过仔细匹配训练数据、计算和模型容量，公平地比较了对比预训练和图像字幕等两种预训练策略，并发现仅采用图像字幕训练也很有效，既可以产生与对比预训练编码器竞争的视觉编码器，也可以在视觉和语言任务上超越它们。

Jun, 2023

学习描述一对相似图片之间的差异

本文介绍了一项任务，即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集，并提出了一种模型，该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐，以捕捉视觉显著性并实现语言和视觉的对准。

Aug, 2018

基于跨模态相似性的课程学习在图像描述中的应用

该研究提出一种基于跨模态相似性的难度度量方法，用于图像字幕生成模型的训练，并在 COCO 和 Flickr30k 数据集上验证了其有效性，证明其在难样本和未见数据上表现出较高的泛化能力。

Dec, 2022

用自然语言描述图像集合之间的差异

自动描述两个图像集之间的差异，并通过对候选描述进行重新排序来区分两个集合，从而揭示数据集和模型中的潜在差异

Dec, 2023

无监督图像对图像翻译的对比学习

本文提出了一种无监督、基于对比学习的图像翻译方法，其主要思想是学习一个判别器，将不同的图像风格区分开来，并使其监督生成器将这些风格在图像之间进行转移。实验结果表明，该方法在视觉质量和翻译准确度方面优于当前领先的无监督基线模型。

May, 2021

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023