视频字幕的分层模块化网络

CVPRNov, 2021

Hierarchical Modular Network for Video Captioning

Hanhua Ye, Guorong Li, Yuankai Qi, Shuhui Wang, Qingming Huang...

TL;DR本文提出了一种分层的模块化网络来连接视频表示和语言语义，从实体级别、谓词级别和句子级别三个层次生成视频字幕，并在 MSVD 和 MSR-VTT 基准测试中表现优异。

Abstract

video captioning aims to generate natural language descriptions according to the content, where representation learning plays a crucial role. Existing methods are mainly developed within the supervised learning f

video captioning representation learning hierarchical modular network linguistic semantics msvd and msr-vtt benchmarks

发现论文，激发创造

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

基于分层强化学习的视频字幕生成

本文提出了一种新颖的分层强化学习框架，用于视频字幕生成，该框架让高级管理器模块学习设计子目标，低级工作模块识别基本动作以实现子目标，实验证明我们的方法在细粒度视频字幕生成方面优于其他基线方法，并在已广泛使用的 MSR-VTT 数据集上达到了最佳效果。

Nov, 2017

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

利用字幕的关注语义视频生成

该研究提出了一种网络架构，利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象，动作和交互，并将它们与长期和短期依赖结合起来，以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成，并在执行其他任务时表现出了良好的能力，如动作识别和空时样式转移。

Aug, 2017

使用组合神经模块网络进行图像字幕生成

本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案，探索了自然语言的组成和顺序性，选择性地关注输入图像中每个检测到的对象的不同模块，以包括计数和颜色等特定描述，提出模型优于现有模型，结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。

Jul, 2020

使用分层循环神经网络进行视频段落字幕生成

利用分层循环神经网络和时空注意力机制生成视频字幕，在 YouTube 和 TACoS 数据集上验证具有更高 BLEU 得分。

Oct, 2015

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

从密集视频字幕中提取语义元数据

通过使用 MT 和 PVDC 生成视频字幕，我们提出了一个从自动生成的视频字幕中提取语义元数据的框架。我们的实验表明，可以从生成的字幕中提取实体，属性，实体之间的关系和视频类别。

Nov, 2022

针对视频字幕的分层边界感知神经编码器

本论文提出了一种循环视频编码方案，可以发现和利用视频的分层结构，并且改善了电影描述数据集的现有技术结果。

Nov, 2016

用于视频字幕的多模态记忆建模

本文提出了一种多模态记忆模型 (M3)，利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力，该方法在公开基准数据集上的实验证明，相比于最先进的方法，本文提出的方法在 BLEU 和 METEOR 方面表现较好。

Nov, 2016