视频字幕的判别性潜在语义图

MMAug, 2021

Discriminative Latent Semantic Graph for Video Captioning

Yang Bai, Junyan Wang, Yang Long, Bingzhang Hu, Yang Song...

TL;DR该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Abstract

video captioning aims to automatically generate natural language sentences that can describe the visual contents of a given video. Existing generative models like encoder-decoder frameworks cannot explicitly expl

video captioning encoder-decoder frameworks conditional graph latent proposal aggregation discriminative language validator

发现论文，激发创造

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

视频字幕的分层模块化网络

本文提出了一种分层的模块化网络来连接视频表示和语言语义，从实体级别、谓词级别和句子级别三个层次生成视频字幕，并在 MSVD 和 MSR-VTT 基准测试中表现优异。

Nov, 2021

利用字幕的关注语义视频生成

该研究提出了一种网络架构，利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象，动作和交互，并将它们与长期和短期依赖结合起来，以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成，并在执行其他任务时表现出了良好的能力，如动作识别和空时样式转移。

Aug, 2017

视频字幕的时空动态与语义属性增强视觉编码

本篇文章提出了一种视觉特征编码技术，使用门控循环单元（GRUs）生成语义丰富的视频字幕，并在 MSVD 和 MSR-VTT 数据集上创造了新的 METEOR 和 ROUGE_L 度量标准的最新技术水平。

Feb, 2019

从字幕生成视频：创造您所说的话

本文中，我们提出了一个新颖的基于标题的时序生成对抗网络（TGANs-C）来生成视频，该网络结合了数据的语义和时间上的一致性。我们通过定性和定量实验验证了我们的提议，并展示了在给定标题的情况下生成逼真视频的能力。

Apr, 2018

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

基于关系图学习的视频描述生成

本研究设计了一种新颖的关系图学习框架，包括一种语言细化的场景图表示，探索细粒度的视觉概念，并解决了对象幻觉问题。实验结果表明，本方法可以生成更精细和准确的描述。

Dec, 2021

基于不相交监督的密集视频目标字幕生成

我们提出了一种针对密集视频对象字幕的新任务和模型 - 检测、跟踪和说明视频中所有对象的轨迹。

Jun, 2023

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

基于双图和门控融合的聚合特征视频字幕生成

本文提出了基于双图和门控融合的视频字幕模型，通过使用两种类型的图来生成视频内容的特征表示，并利用门控融合来进一步理解这些不同层次的信息，以实现对复杂视频对象相互作用的全面理解。在 MSVD 和 MSR-VTT 这两个常用数据集上进行的实验表明，我们提出的方法具有最先进的性能。

Aug, 2023