通过对抗式学习生成多样且准确的视觉描述

Apr, 2018

通过对抗式学习生成多样且准确的视觉描述

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Dianqi Li, Qiuyuan Huang, Xiaodong He, Lei Zhang, Ming-Ting Sun

TL;DR提出一种基于条件生成对抗网络的比较式对抗学习框架，能够在图像描述任务中生成不仅准确而且多样化的描述语句。

Abstract

We study how to generate captions that are not only accurate in describing an image but also discriminative across different images. The problem is both fundamental and interesting, as most machine-generated captions, despite phenomenal research progresses in the past several years, are expressed in a very monotonic and featureless format. While such caption

caption generation language diversity conditional generative adversarial network comparative adversarial learning framework image-caption joint space

发现论文，激发创造

用对抗训练将机器字幕匹配到人类字幕

通过对抗训练结合 Gumbel 抽样，将图像标题生成器的训练目标从复制 groundtruth 标题更改为生成一组无法区分于人类生成的标题，从而生成更多元、不太偏斜的标题，统计上也更匹配人类。

Mar, 2017

使用条件生成式对抗网络改进图像标注

本文提出了一种基于条件生成对抗网络的图像描述框架，添加了 “辨别器” 网络去逐步判断生成的描述是人类描述还是机器生成的，该算法是通用的，能够提高任何现有的基于 RL 的图像描述框架，实验表明，这种方法在不同的语言评估指标上有一致的改进。

May, 2018

通过条件 GAN 实现多样化和自然化的图像描述

该研究旨在通过使用基于条件生成对抗网络（CGAN）的新框架来提高图像字幕生成的自然性和多样性，其中一个生成器可以根据图像生成描述，并使用一个评估器来评估描述与视觉内容的匹配程度。

Mar, 2017

从字幕生成视频：创造您所说的话

本文中，我们提出了一个新颖的基于标题的时序生成对抗网络（TGANs-C）来生成视频，该网络结合了数据的语义和时间上的一致性。我们通过定性和定量实验验证了我们的提议，并展示了在给定标题的情况下生成逼真视频的能力。

Apr, 2018

图像字幕的对比学习

本文提出一种基于对比学习的图像字幕生成方法，即在参考模型的基础上，通过两个约束条件，鼓励生成独特的字幕，从而提高字幕的质量和独特性。我们在两个挑战性数据集上测试了该方法，并证明它是通用的并可用于不同结构的模型。

Oct, 2017

对视觉语言基础的对抗性攻击：神经图像字幕案例研究

本文提出了一种新的算法 Show-and-Fool，用于研究神经图像字幕系统在机器视觉和感知中健壮的语言基础，该算法通过两种评估方法检查神经图像字幕系统是否能够误导输出某些随机选择的字幕或关键字。实验证明，我们的算法可以成功地制作出视觉相似的对抗性例子，对其他图像字幕系统高度可传递，并导致了视觉语言基础的新型健壮性影响和新的洞察。

Dec, 2017

多句视频描述的对抗性推理

本研究提出使用对抗技术在推断过程中设计鉴别器来促进更好的多句子视频描述，并提出一个多鉴别器 “混合” 设计，其中每个鉴别器针对说明书的一个方面，以评估三个标准：与视频的视觉相关性、语言多样性和流畅度以及句子间的连贯性。该方法通过对流行的 ActivityNet 字幕数据集进行的自动化以及人工评估表明，能够产生更准确、多样和连贯的多句子视频说明。

Dec, 2018

独特的图像字幕化：借助 CLIP 引导强化学习的基准真实字幕

用训练图像字幕模型的教师强迫方法生成的样本非常通用，而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略，其中利用了不同方式的真实字幕，从而在保持高写作质量的同时生成高度独特的字幕。

Feb, 2024

用于训练描述性字幕的区分性目标

本文提出了一种改进图像标题生成方法的方法，通过在训练过程中加入与机器学习相关的损失函数来加强图像标题的区分度，从而提高生成标题的质量。

Mar, 2018

ADS-Cap: 一个准确且多样化的风格化说明文档生成框架，无需成对的风格化语料库

使用不成对的文体语料库生成具有特定语言风格的视觉 grounded 图片标题是一项具有挑战性的任务，本文提出了一种新的框架（ADS-Cap）来生成准确且多样化的文体标题，其中使用对比学习模块来统一成对的事实语料库和不成对的文体语料库，并使用条件变分自动编码器在潜空间中自动记忆多种文体模式以增强多样性，并通过简单而有效的重新检查模块提高文体准确性。在两个广泛使用的文体图片标题数据集上进行的实验结果表明，相比多种基准模型，ADS-Cap 在与图片一致性、文体准确性和多样性方面表现出了出色的性能。最后，我们进行了广泛的分析以了解我们方法的有效性。

Aug, 2023