电影描述的长短故事

Jun, 2015

The Long-Short Story of Movie Description

Anna Rohrbach, Marcus Rohrbach, Bernt Schiele

TL;DR本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器CNNs以及LSTMs，学习生成描述的算法，并在MPII-MD数据集上获得了目前最佳性能。

Abstract

Generating descriptions for videos has many applications including assisting blind people and human-robot interaction. The recent advances in image captioning as well as the release of large-scale movie description datasets such as MPII Movie Description allow to study this task in mor

发现论文，激发创造

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

学习用于图像字幕生成的递归视觉表示

本研究探索了图像及其基于语句的描述之间的双向映射，提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子，并重新构建与图像相关的可视化特征，同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中，我们的自动生成字幕被人类喜欢的比例超过了 19.8％。和使用类似的视觉特征方法相比，我们的结果在图像和语句检索任务上达到了同等或更好的效果。

Nov, 2014

利用时间结构描述视频

这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法，并在Youtube2Text数据集上的BLEU和METEOR度量标准上超过了当前最先进的结果，并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。

Feb, 2015

序列到序列 -- 视频到文本

该文章介绍了一种基于序列到序列模型和LSTM的视频描述方法，利用时间结构，将视频帧序列与单词序列相关联来生成视频描述，同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。

May, 2015

联合建模嵌入和翻译以桥接视频和语言

本文提出了一种名为LSTM-E的新型统一框架，它可以同时探索LSTM和视觉-语义嵌入的学习，以有效生成自然语言描述的视频内容，实验表明LSTM-E在生成自然语言句子方面的表现优于目前为止的最佳表现，对于预测SVO三元组也超过了几种最先进的技术。

May, 2015

基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成

本文介绍了使用循环神经网络（RNN）生成短视频文本描述的系统，利用静态图像特征和视频专属特征的RNN，我们研究了视觉内容分类器作为额外信息源的实用性，并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用，可以比单独利用它们表现更好。

Dec, 2015

基于文本挖掘的语言知识提升的LSTM视频描述

本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述，并将神经语言模型和分布式语义训练应用于最近的基于LSTM的视频描述体系结构。我们在一组Youtube视频和两个大型电影描述数据集上评估了我们的方法，在改善语法正确性的同时适度提高了描述质量。

Apr, 2016

视频描述的双向长短期记忆网络

提出一种新型的视频字幕生成框架Bidirectional Long-Short Term Memory，该框架综合保留了视频的信息，并在常用基准测试上验证了该框架的有效性。

Jun, 2016

针对视频字幕的分层边界感知神经编码器

本论文提出了一种循环视频编码方案，可以发现和利用视频的分层结构，并且改善了电影描述数据集的现有技术结果。

Nov, 2016

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017