多句视频描述的对抗性推理

CVPRDec, 2018

Adversarial Inference for Multi-Sentence Video Description

Jae Sung Park, Marcus Rohrbach, Trevor Darrell, Anna Rohrbach

TL;DR本研究提出使用对抗技术在推断过程中设计鉴别器来促进更好的多句子视频描述，并提出一个多鉴别器 “混合” 设计，其中每个鉴别器针对说明书的一个方面，以评估三个标准：与视频的视觉相关性、语言多样性和流畅度以及句子间的连贯性。该方法通过对流行的 ActivityNet 字幕数据集进行的自动化以及人工评估表明，能够产生更准确、多样和连贯的多句子视频说明。

Abstract

While significant progress has been made in the image captioning task, video description is still in its infancy due to the complex nature of video data. Generating multi-sentence descriptions for long videos is even more challenging. Among the main issues are the fluency and coherence

video description adversarial learning multi-sentence discriminator activitynet captions

发现论文，激发创造

具有可变细节级别的连贯多句视频描述

本文介绍了一种通过从视频中学习语义表示（SR）并以 SR 为基础来生成多句连贯的自然语言描述的方法，同时也提出了基于手的视觉识别方法以及利用词格进行句子生成的方法，并通过人类评价证明了该方法比现有相关工作能够生成更可读、准确和相关的描述。

Mar, 2014

通过对抗式学习生成多样且准确的视觉描述

提出一种基于条件生成对抗网络的比较式对抗学习框架，能够在图像描述任务中生成不仅准确而且多样化的描述语句。

Apr, 2018

通过条件 GAN 实现多样化和自然化的图像描述

该研究旨在通过使用基于条件生成对抗网络（CGAN）的新框架来提高图像字幕生成的自然性和多样性，其中一个生成器可以根据图像生成描述，并使用一个评估器来评估描述与视觉内容的匹配程度。

Mar, 2017

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

ParaCNN: 基于对抗孪生上下文 CNN 的视觉段落生成

本文提出了一种使用纯 CNN 模型生成可包含丰富细节的长段落视觉描述的方法，使用上下文信息的层次 CNN 架构，以及对抗性训练方案，以实现全面建模段落的目的，并在 Stanford 视觉段落数据集上获得了最先进的性能。

Apr, 2020

复杂操作动作视频的多句描述

提出了一种混合统计和端到端框架来解决视频描述中细节级别、操作行为和层次结构的问题，并且定量结果表明这些方法产生的描述比其他竞争方法更真实。

Nov, 2023

从字幕生成视频：创造您所说的话

本文中，我们提出了一个新颖的基于标题的时序生成对抗网络（TGANs-C）来生成视频，该网络结合了数据的语义和时间上的一致性。我们通过定性和定量实验验证了我们的提议，并展示了在给定标题的情况下生成逼真视频的能力。

Apr, 2018

使用条件生成式对抗网络改进图像标注

本文提出了一种基于条件生成对抗网络的图像描述框架，添加了 “辨别器” 网络去逐步判断生成的描述是人类描述还是机器生成的，该算法是通用的，能够提高任何现有的基于 RL 的图像描述框架，实验表明，这种方法在不同的语言评估指标上有一致的改进。

May, 2018

从图像中生成多样且连贯的段落

通过使用 “连贯向量”、“全局主题向量” 和变分自动编码器对段落生成技术进行增强，以解决图像关联性固有的歧义性，本文在两个数据集上比现有最先进技术表现更为出色。

Sep, 2018

向前并讲述：视频描述的渐进式生成器

本研究提出了一种基于序列学习的新方法，通过选择一系列鲜明的视频片段和产生连贯的句子描述来生成对给定视频的一个连贯段落描述。该方法在 ActivityNet Captions 数据集上表现出能够生成高质量段落描述的能力，比其他方法产生的描述更相关、更连贯和更简洁。

Jul, 2018