一个基于混合深度学习框架的视频分类多模态信息建模模型

Jun, 2017

一个基于混合深度学习框架的视频分类多模态信息建模模型

Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification

Yu-Gang Jiang, Zuxuan Wu, Jinhui Tang, Zechao Li, Xiangyang Xue...

TL;DR本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Abstract

Videos are inherently multimodal. This paper studies the problem of how to fully exploit the abundant multimodal clues for improved video categorization. We introduce a hybrid →

multimodal deep learning convolutional neural networks long short term memory networks video classification

发现论文，激发创造

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015

融合多路深度网络进行视频分类

本研究提出了一种多流深度网络架构，用于解决视频分类问题。通过训练三种卷积神经网络来建模视频中的空间、短期动态和音频线索，并采用长短期记忆网络来探索长期时间动态，最终通过自适应融合方法生成预测结果，将多模态信息充分利用。实验证明，该方法的性能明显优于现有的方法。

Sep, 2015

野外视频情感分类的时间多模态融合

本文通过使用卷积神经网络改进面部描述符，并探索多种融合方法，建立并优化 CNN 架构，解决情感分类问题，获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性，达到了 58.8％。

Sep, 2017

基于多模态深度模型的电影情感反应预测

本研究旨在开发和分析多模态模型，预测观众观看电影片段时的情感反应。研究发现，通过提取 RGB 帧和光流的特征以及音频中的各种低级描述符，采用深度神经网络模型来进行情感预测更为精确。其中，光流特征比 RGB 视频更加信息含量丰富，且音频特征的预测精度高于视频特征。

Sep, 2019

基于多模态特征的文本视频分割运动建模

本文提出了一种多模态视频分割方法，通过语言引导的特征融合模块和多模态对齐损失函数，将视觉外观、运动信息和语言特征融合，实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明，该方法与现有方法相比具有更好的性能和泛化能力。

Apr, 2022

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

大规模视频分类中多模态融合的良好实践

通过多模数据融合与双线性池化结合，实现音视频表达融合，在视频分类等大规模多媒体处理上显著优于简单融合方法，并在 Youtube-8M v2 数据集上进行了验证。

Sep, 2018

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017