多模态表示学习中早期融合的好处

Nov, 2020

多模态表示学习中早期融合的好处

On the Benefits of Early Fusion in Multimodal Representation Learning

George Barnum, Sabera Talukder, Yisong Yue

TL;DR该篇论文通过创建卷积 LSTM 网络结构，研究了多模态表示学习中视听融合的早期处理，结果表明，在初始 C-LSTM 层中立即融合音频和视觉输入可以提高网络的性能，使其更能够抵抗白噪声的干扰。

Abstract

Intelligently reasoning about the world often requires integrating data from multiple modalities, as any individual modality may contain unreliable or incomplete information. Prior work in multimodal learning fuses input modalities only after significant independent processing. On the

multimodal learning convolutional lstm network audio-visual fusion neuroscience data integration

发现论文，激发创造

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

多模态融合中的注意力瓶颈

本篇论文介绍了一种基于 transformer 的新颖架构，使用多层的融合瓶颈来进行多模态融合，实现了在多个音视频分类基准测试上的最新的结果，同时降低了计算成本。

Jun, 2021

揭示视听早期融合变压器的强大力量：通过遮蔽建模实现密集交互

本文介绍了使用掩模重建框架和基于注意力的融合模块来训练早期融合的音频 - 视觉编码器，以实现高效深度集成的音频 - 视觉模型。实验证明该方法在音频事件分类、视觉声音定位、音频分离和音频 - 视觉分割方面表现优越，极大地推动了早期融合架构的应用。

Dec, 2023

基于深度学习的多模态医学图像分类信息融合技术综述

多模医学成像在临床诊断和研究中起着关键作用，深度学习多模态融合技术在提高医学图像分类方面显示出强大的工具。本综述对基于深度学习的医学分类任务中的多模态融合的发展进行了彻底分析，包括不同融合方案和网络架构的性能评估，讨论了相关挑战和未来研究方向。

Apr, 2024

通过动态融合方法学习多模态词表示

本研究提出了三种新颖的动态融合方法，旨在根据不同类型的词动态地融合来自不同模式的语义表示，并在单模型和多模型情况下取得了优于现有方法的成果。

Jan, 2018

使用不对称多层融合学习深层次多模态特征表示

本文介绍了一种有效的多模态特征融合框架，其中采用了两种创新的融合方案，可在一个共享的单一网络中学习多模态特征，并引入两个非对称融合操作，以增强跨通道的多模态特征交互并增强通道内的空间特征区分能力。实验结果表明，本文提出的框架在语义分割和图像翻译任务中表现优异。

Aug, 2021

多模态数据自适应融合技术

本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Nov, 2019

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

大规模视频分类中多模态融合的良好实践

通过多模数据融合与双线性池化结合，实现音视频表达融合，在视频分类等大规模多媒体处理上显著优于简单融合方法，并在 Youtube-8M v2 数据集上进行了验证。

Sep, 2018