用于视觉序列应用的深度递归神经网络框架

CVPRNov, 2018

用于视觉序列应用的深度递归神经网络框架

Deep RNN Framework for Visual Sequential Applications

Bo Pang, Kaiwen Zha, Hanwen Cao, Chen Shi, Cewu Lu

TL;DR我们提出了一种可以有效地堆叠的新型循环神经网络框架，其中包含称为 Context Bridge Module (CBM) 的新型循环神经网络模块和 Overlap Coherence Training Scheme 的设计。通过在几个视觉顺序问题上使用 15 层的深层 RNN 架构，深层 RNN 模型在动态图像分类等任务上表现出了显著的提高。

Abstract

Extracting temporal and representation features efficiently plays a pivotal role in understanding visual sequence information. To deal with this, we propose a new recurrent neural framework that can be stacked deep effectively. There are mainly two novel designs in our deep RNN framework: one is a new RNN module called →

recurrent neural network deep learning temporal representation context bridge module video classification

发现论文，激发创造

用于视频快速推理的循环残留模块

本文提出了一种名为 Recurrent Residual Module （RRM）的框架，可以使用两个连续帧的中间特征图的相似度来大大减少冗余计算，精确计算每个帧的特征图，从而加速 CNN 推断以进行视频识别，实验结果显示，与维持相似识别性能的前一方法相比，RRM 平均加速率达到 2 倍，可在许多常用 CNN 上加速达到 8-12 倍，而在某些二进制网络上加速率可以高达 500 倍

Feb, 2018

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015

使用递归神经网络进行推荐的上下文序列建模

我们提出了一种新的上下文递归神经网络，可以在输入和输出层中考虑相关信息，将上下文嵌入与项目嵌入相结合，并在模型动态性中将隐藏单元转换参数化为上下文信息的函数，从而在下一事件预测任务上显示出良好的提高效果。

Jun, 2017

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015

长期循环卷积网络用于视觉识别和描述

研究比较深度卷积网络和带有循环结构的深度卷积神经网络的效果，针对视频识别、图像描述、检索以及视频叙事方面的问题，开发出一种新颖的循环卷积架构，该架构可以训练端到端，可以同时学习时间动态和卷积感知表示，并具有学习长期依赖性的能力。实验结果证明，循环卷积模型在识别或生成方面与现有的模型相比具有明显的优势。

Nov, 2014

层级深度循环架构用于视频理解

本篇论文介绍了我们在 Youtube-8M 视频理解挑战中开发的系统，采用了规模庞大的基准数据集进行多标签视频分类。我们使用分层深度架构提出了两种注意池化方法并采用了集成学习方法，在公开测试集上达到了 GAP 0.84346 的成绩。

Jul, 2017

多维递归神经网络

本文介绍了多维循环神经网络 (MDRNNs) 的概念，扩展了循环神经网络 (RNNs) 在视觉、视频处理、医疗影像等领域的应用，同时避免了其它多维模型所面临的缩放问题。笔者提供了两个图像分割任务的实验结果。

May, 2007

深度卷积图网络的分层视频帧序列表示

本文提出了一种基于深度卷积图神经网络的视频分类方法，利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取，获得反映事件语义的视频表示，其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。

Jun, 2019

结构化递归神经网络：时空图上的深度学习

本文提出了一种结合高级时空图和序列学习成功的递归神经网络（RNN）的方法，通过将任意时空图转化为丰富的 RNN 混合物来提高模型性能，适用于模拟人类运动到对象交互等多种问题领域。

Nov, 2015

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017