多模态掩蔽自编码器用于动态情绪识别

Apr, 2024

多模态掩蔽自编码器用于动态情绪识别

MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition

Peihao Xiang, Chaohao Lin, Kaida Wu, Ou Bai

TL;DR本文提出了一种名为多模态蒙特卡洛自动编码器（MultiMAE-DER）的处理多模态数据用于动态情感识别的新方法。MultiMAE-DER 利用视觉和音频模态之间的时空序列中紧密相关的表示信息。通过利用预训练的蒙特卡洛自动编码器模型，通过简单直接的微调实现 MultiMAE-DER。该方法通过优化六种多模态输入序列融合策略来提高 MultiMAE-DER 的性能，解决了跨域数据中的动态特征相关性问题。与现有的多模态监督学习模型相比，MultiMAE-DER 在 RAVDESS 数据集上的加权平均召回率（WAR）提高了 4.41％，在 CREMAD 上提高了 2.06％。此外，与多模态自监督学习的最新模型相比，MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86％。

Abstract

This paper presents a novel approach to processing multimodal data for dynamic emotion recognition, named as the multimodal masked autoencoder

multimodal data dynamic emotion recognition multimodal masked autoencoder fusion strategies weighted average recall

发现论文，激发创造

MultiMAE: 多模态多任务掩蔽自编码器

提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Apr, 2022

MAE-DFER：自监督动态面部表情识别的高效掩模自编码器

MAE-DFER 是一种新型的自监督方法，它通过大规模无标签数据的自监督预训练来推动 DFER 的发展，同时采用效率高的局部全局交互 Transformer 编码器，以及明确的面部动作建模，可以学习到强大的动态面部表征。

Jul, 2023

UniM$^2$AE：自主驾驶中统一的三维感知的多模态掩码自编码器

该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器（UniM$^2$AE）模型，通过将图像与激光雷达点云的特征融合，实现了对多模态数据的高效处理，提高了三维物体检测和鸟瞰图分割的效果。

Aug, 2023

MMA-DFER: 适应多模态单模型的野外动态面部表情识别

探讨使用自我监督学习方法进行多模态动态面部表情识别的研究，并提出了解决该任务中的主要挑战以及相应解决方案，最终在 DFEW 和 MFAW 两个常用的动态面部表情识别基准数据集上实现了超过当前最先进方法的改进。

Apr, 2024

RetroMAE-2: 双工遮蔽自编码器用于预训练面向检索的语言模型

本文提出了一种新的预训练方法，名为 Duplex Masked Auto-Encoder（DupMAE），以改善用于信息检索任务的上下文嵌入的语义表示质量，其中所有上下文嵌入都可以被利用。通过两个互补的自编码任务，联合训练一个统一的编码器，实现所有上下文化嵌入的紧凑汇总，生成最终的语义表示。

May, 2023

实现可传递的多模态感知表示学习自主性：NeRF-Supervised 遮蔽自动编码器

该论文提出了一种统一的自监督预训练框架，通过在神经辐射场 (NeRF) 中进行掩蔽多模态重建，实现可传输的多模态感知表示学习。实验证明，通过该方法学习到的表示对于多样化的三维感知下游任务（包括三维物体检测和 BEV 地图分割）具有良好的可迁移性，并且可享受掩蔽自编码器和神经辐射场机制的协同效应。

Nov, 2023

多模态深度学习在多模态情感识别中的应用

采用多模态深度学习方法构建情感模型，通过单模态增强和多模态便利任务表现出较高的识别精度，同时在跨模态学习任务中证明了其有效性。

Feb, 2016

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

自监督先训练用于可迁移多模态感知

这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式，利用 NeRF 支持的遮蔽自动编码器（NS-MAE）来提供高效且高性能的微调的预训练模型初始化，通过在神经辐射场（NeRF）中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据，证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性，该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估，例如 3D 对象检测和 BEV 地图分割。

May, 2024

面向音视频语音情感识别的向量量化掩码自编码器

本研究提出了一种基于矢量量化和自监督学习的 MAE 模型，对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案，实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后，表现优于现有的音频视觉 SER 方法。

May, 2023