融合多路深度网络进行视频分类

Sep, 2015

Fusing Multi-Stream Deep Networks for Video Classification

Zuxuan Wu, Yu-Gang Jiang, Xi Wang, Hao Ye, Xiangyang Xue...

TL;DR本研究提出了一种多流深度网络架构，用于解决视频分类问题。通过训练三种卷积神经网络来建模视频中的空间、短期动态和音频线索，并采用长短期记忆网络来探索长期时间动态，最终通过自适应融合方法生成预测结果，将多模态信息充分利用。实验证明，该方法的性能明显优于现有的方法。

Abstract

This paper studies deep network architectures to address the problem of video classification. A multi-stream framework is proposed to fully utilize the rich multimodal information in videos. Specifically, we firs

deep network architectures video classification multi-stream framework convolutional neural networks long short term memory networks

发现论文，激发创造

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015

Two Stream LSTM：人类动作识别的深度融合框架

本文主要介绍了基于卷积神经网络和 LSTM 神经网络的动作识别方法，实验证明本文提出的多流融合模型可以有效地提高识别准确率。

Apr, 2017

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015

基于卷积双流网络融合的视频动作识别

为了最好地利用时空信息，我们研究了在空间和时间上融合 ConvNet 塔的多种方法，并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构，以融合视频片段的空时信息，并在标准基准测试中评估了其性能，该架构达到了最先进的结果。

Apr, 2016

评估两流 CNN 用于视频分类

该论文以深度学习为基础，通过研究网络架构、模型融合、学习参数和最终预测方法等等选项对视频分类进行了深入研究，并在两个流行的视频分类基准测试中获得了竞争力极强的结果。

Apr, 2015

野外视频情感分类的时间多模态融合

本文通过使用卷积神经网络改进面部描述符，并探索多种融合方法，建立并优化 CNN 架构，解决情感分类问题，获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性，达到了 58.8％。

Sep, 2017

一种基于多流融合和单类学习的音视频深伪造检测方法

该研究针对深度伪造音视频的检测模型的挑战，提出了一种具有多模态融合和一类学习表示级正则化技术的方法，以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%，同时提供了模型对伪造模态的识别结果。

Jun, 2024

融合深度卷积网络进行大规模视觉概念分类

本研究从大数据方面对卷积神经网络进行了分析，并在单个和多个网络模型上提出了有效的融合机制，为大数据从业人员提供了最佳实践，从而在保持计算成本较低的情况下，在基准数据集上取得了最先进的结果。

Aug, 2016

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014