序列到序列 -- 视频到文本

May, 2015

Sequence to Sequence -- Video to Text

Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell...

TL;DR该文章介绍了一种基于序列到序列模型和LSTM的视频描述方法，利用时间结构，将视频帧序列与单词序列相关联来生成视频描述，同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。

Abstract

Real-world videos often have complex dynamics; methods for generating open-domain video descriptions should be senstive to temporal structure and allow both input (sequence of frames) and output (sequence of words) of variable length. To approach this problem we propose a novel end-to-

发现论文，激发创造

使用深度递归神经网络将视频翻译为自然语言

本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法，并通过将知识从含标记种类超过120万张图像和带字幕的超过100,000张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量，主语，动词和宾语预测准确度以及人的评估进行比较，证明本方法的有效性。

Dec, 2014

利用时间结构描述视频

这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法，并在Youtube2Text数据集上的BLEU和METEOR度量标准上超过了当前最先进的结果，并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。

Feb, 2015

联合建模嵌入和翻译以桥接视频和语言

本文提出了一种名为LSTM-E的新型统一框架，它可以同时探索LSTM和视觉-语义嵌入的学习，以有效生成自然语言描述的视频内容，实验表明LSTM-E在生成自然语言句子方面的表现优于目前为止的最佳表现，对于预测SVO三元组也超过了几种最先进的技术。

May, 2015

使用分层循环神经网络进行视频段落字幕生成

利用分层循环神经网络和时空注意力机制生成视频字幕，在YouTube和TACoS数据集上验证具有更高BLEU得分。

Oct, 2015

基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成

本文介绍了使用循环神经网络（RNN）生成短视频文本描述的系统，利用静态图像特征和视频专属特征的RNN，我们研究了视觉内容分类器作为额外信息源的实用性，并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用，可以比单独利用它们表现更好。

Dec, 2015

长短期记忆视频摘要

本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术，其将问题视为顺序数据上的结构化预测问题，主要想法是利用LSTM（长短时记忆），该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性，详细分析证明了模型设计的合理性，通过引入领域适应技术，我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。

May, 2016

针对视频字幕的分层边界感知神经编码器

本论文提出了一种循环视频编码方案，可以发现和利用视频的分层结构，并且改善了电影描述数据集的现有技术结果。

Nov, 2016

向前并讲述：视频描述的渐进式生成器

本研究提出了一种基于序列学习的新方法，通过选择一系列鲜明的视频片段和产生连贯的句子描述来生成对给定视频的一个连贯段落描述。该方法在ActivityNet Captions数据集上表现出能够生成高质量段落描述的能力，比其他方法产生的描述更相关、更连贯和更简洁。

Jul, 2018

端到端密集视频字幕生成

本文提出一种联合建模的方法，将稠密视频字幕的两个子任务共同作为一个序列生成任务，同时预测事件和相应的描述，并使用YouCook2和ViTT的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。

Apr, 2022

基于编码器-解码器的长短期记忆（LSTM）视频字幕模型

本文展示了使用编码-解码模型来实现视频数据到文本字幕的多对多映射的方法，并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用2元BLEU分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性，即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。

Oct, 2023