大规模视频分类中多模态融合的良好实践

ECCVSep, 2018

大规模视频分类中多模态融合的良好实践

Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification

Jinlai Liu, Zehuan Yuan, Changhu Wang

TL;DR通过多模数据融合与双线性池化结合，实现音视频表达融合，在视频分类等大规模多媒体处理上显著优于简单融合方法，并在 Youtube-8M v2 数据集上进行了验证。

Abstract

Leveraging both visual frames and audio has been experimentally proven effective to improve large-scale video classification. Previous research on video classification mainly focuses on the analysis of visual con

video classification multimodal data fusion bilinear pooling audio-visual representation youtube-8m v2 dataset

发现论文，激发创造

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

多模态融合中的注意力瓶颈

本篇论文介绍了一种基于 transformer 的新颖架构，使用多层的融合瓶颈来进行多模态融合，实现了在多个音视频分类基准测试上的最新的结果，同时降低了计算成本。

Jun, 2021

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

多模态表示学习中早期融合的好处

该篇论文通过创建卷积 LSTM 网络结构，研究了多模态表示学习中视听融合的早期处理，结果表明，在初始 C-LSTM 层中立即融合音频和视觉输入可以提高网络的性能，使其更能够抵抗白噪声的干扰。

Nov, 2020

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021

基于层次融合的多模态电子商务产品分类

本研究提出了一种多模态模型，通过使用多个神经网络模型从文本（CamemBERT 和 FlauBERT）和视觉数据（SE-ResNeXt-50）提取的特征，并采用简单的融合技术，显著提高了单一模态模型的性能和类似模型性能，我们实验了多种融合技术，并发现将单一模态网络的个体嵌入组合为特征向量的拼接和平均值结合的性能最好，每种模态互补了其他模态的缺点，证明增加模态数量可以是改善多标签和多模态分类问题性能的有效方法。

Jul, 2022

研究音频、视觉和文本融合方法，实现端到端的自动人格预测

通过音频、文字和视频数据，采用多模态融合的方法，使用卷积神经网络预测大五人格特质分数，证明复杂交互能建立更好的模型与预测，该模型可用于提高虚拟代理的情商。

May, 2018

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

野外视频情感分类的时间多模态融合

本文通过使用卷积神经网络改进面部描述符，并探索多种融合方法，建立并优化 CNN 架构，解决情感分类问题，获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性，达到了 58.8％。

Sep, 2017

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020