视频翻译的自适应特征抽象

Nov, 2016

Adaptive Feature Abstraction for Translating Video to Language

Yunchen Pu, Martin Renqiang Min, Zhe Gan, Lawrence Carin

TL;DR本研究提出了一种新的方法，使用自适应的注意力机制和多层卷积神经网络特征（即特征抽象）来生成视频的时空表示，通过实验验证了该方法的有效性。

Abstract

A new model for video captioning is developed, using a deep three-dimensional convolutional neural network (C3D) as an encoder for videos and a Recurrent Neural Network (RNN) as a decoder for captions. We conside