多任务多模态自监督学习的面部表情识别

CVPRApr, 2024

多任务多模态自监督学习的面部表情识别

Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition

Marah Halawa, Florian Blume, Pia Bideau, Martin Maier, Rasha Abdel Rahman...

TL;DR通过多模态多任务自监督学习方法，利用无标签的野外视频数据，实现了面部表情识别的模型，并在多个基准测试中取得了优秀的性能表现。

Abstract

Human communication is multi-modal; e.g., face-to-face interaction involves auditory signals (speech) and visual signals (face movements and hand gestures). Hence, it is essential to exploit multiple modalities when designing machine learning-based →

facial expression recognition multi-modal self-supervised learning video data multi-task

发现论文，激发创造

自我监督多任务学习的多模态情感分析中学习特定于感知模式的表示

本文设计了一个基于自监督学习策略的标签生成模块，通过联合训练多模态和单模态任务来分别学习一致性和差异，采用权重调整策略来平衡不同子任务的学习进度，验证了自动生成的单模态监督标签的可靠性和稳定性，超过了现有的最先进方法和人工注释的单模态标签。

Feb, 2021

多模态情感识别中基于模态对无监督对比损失的方法

本文提出了一种基于无监督特征学习且包括对比损失的多模式情感识别方法，该方法可以减少资料标注费用、提高精确度并且无需大批量样本。相关实验数据表明，本方法比许多基线方法和无监督学习方法在多模式情感识别上表现更好，甚至超越了当前某些有监督方法的表现。

Jul, 2022

多模态情感识别和情感分析的多任务学习

本文介绍了一个深度多任务学习框架，通过上下文级别的视听注意力机制来同时进行情感和表情分析，并在 CMU-MOSEI 数据集上达到了新的最佳性能。

May, 2019

用于自监督学习的多模聚类网络：来自无标签视频

本文提出了一个自监督训练框架，通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性，进而学习一个共同的多模态嵌入空间，并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.

Apr, 2021

医学图像分析的多模态自监督学习

该论文提出了一种利用多个成像模式的新型自监督方法，设计了一个多模式拼图任务以促进多种图像模式的特征表征，提出了一种利用跨模态生成技术进行多模态数据增强的方法，实验表明该方法能够提高数据效率和语义表征，广泛应用于四种不同的下游任务，并取得了领先的成果。

Dec, 2019

视觉自我监督是否提高情感识别的语音表征学习？

本研究探究了面部重建的视觉自监督方法辅助音频表示学习，提出了适用于语音表示学习的仅音频的自监督方法，比较了多任务的视听自监督与单一方式的自监督方法，发现视听自监督对于学习在噪声环境下更具有鲁棒性的特征更有益。同时，本研究发现自监督学习可以胜过全监督学习并防止过拟合，通过情感识别、自然语言识别等测试表明该方法成功提高了语音特征学习的效果。

May, 2020

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

使用卷积自编码器实现无监督多模态语言表征

提出了一种无监督多模态语言表示提取方法，利用卷积自编码器将单词级对齐的多模态序列映射到 2-D 矩阵中，证明其在情感分析和情绪识别领域可以达到接近最先进性能的结果。

Oct, 2021

EffMulti：高效建模复杂多模态交互以进行情感分析

本文提出了一种多模态情感分析框架 EffMulti，采用三种不同的多模态潜在表示来捕捉不同视角下的复杂情感交互，并提出了一种模态 - 语义层次融合方法来融合这些表示，实验结果表明，EffMulti 在进行情感分析方面表现极佳。

Dec, 2022

多模态深度面部表示的鲁棒人脸识别

本篇论文提出了一种使用多模式信息联合学习人脸表征的深度学习框架，该框架包括一组卷积神经网络和三层堆叠自动编码器，使用公开可用的数据集训练，取得了超过 99％的人脸识别率。

Sep, 2015