从确定性到生成性：用多模态随机循环神经网络实现视频字幕生成

Aug, 2017

从确定性到生成性：用多模态随机循环神经网络实现视频字幕生成

From Deterministic to Generative: Multi-Modal Stochastic RNNs for Video Captioning

Jingkuan Song, Yuyu Guo, Lianli Gao, Xuelong Li, Alan Hanjalic...

TL;DR本文提出了一种基于多模态随机递归神经网络（MS-RNN）的生成式视频字幕方法，利用基于拉丁超立方采样（LHS）的随机采样方法解决给定视频的不确定性问题，支持不同的句子生成，实验结果显示该方法优于现有技术，并提高了视频字幕的性能。

Abstract

video captioning in essential is a complex natural process, which is affected by various uncertainties stemming from video content, subjective judgment, etc. In this paper we build on the recent progress in using encode

video captioning encoder-decoder stochastic modeling multi-modal lstm performance

发现论文，激发创造

多模态循环神经网络（m-RNN）实现的深度字幕生成

本文提出了一种基于多模态循环神经网络的模型，用于生成图像标题，并在四个基准数据集上验证了该模型的有效性。

Dec, 2014

用于视频字幕的多模态记忆建模

本文提出了一种多模态记忆模型 (M3)，利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力，该方法在公开基准数据集上的实验证明，相比于最先进的方法，本文提出的方法在 BLEU 和 METEOR 方面表现较好。

Nov, 2016

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018

序列到序列 -- 视频到文本

该文章介绍了一种基于序列到序列模型和 LSTM 的视频描述方法，利用时间结构，将视频帧序列与单词序列相关联来生成视频描述，同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。

May, 2015

用多模态递归神经网络来解释图像

本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型，实现图像内容的生成式描述，模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层，经验证在三个基准数据集上的表现优于现有方法，还可以应用于图像或句子的检索任务，比现有直接优化排名目标函数的方法取得了显著的性能提升。

Oct, 2014

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

针对视频字幕的分层边界感知神经编码器

本论文提出了一种循环视频编码方案，可以发现和利用视频的分层结构，并且改善了电影描述数据集的现有技术结果。

Nov, 2016

基于编码器 - 解码器的长短期记忆（LSTM）视频字幕模型

本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法，并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性，即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。

Oct, 2023

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016