面向音视频表情识别的处理缺失模态的训练策略

Oct, 2020

面向音视频表情识别的处理缺失模态的训练策略

Training Strategies to Handle Missing Modalities for Audio-Visual Expression Recognition

Srinivas Parthasarathy, Shiva Sundaram

TL;DR研究了当其中一个模态缺失时，自动音视频表情识别中 transformer 模型的表现，通过消融实验和随机消融训练数据的策略，提高了模型的泛化性能。

Abstract

automatic audio-visual expression recognition can play an important role in communication services such as tele-health, VOIP calls and human-machine interaction. Accuracy of audio-visual expression recognition could benefit from the →

automatic audio-visual expression recognition interplay transformer ablation studies generalization

发现论文，激发创造

关于音视觉语音识别对缺失视频的鲁棒性

通过引入一个可以准确且可测试地评估鲁棒性的框架，我们对常见的多模态语音识别架构在各种噪声条件和测试套件中的鲁棒性进行了系统的实证研究，并展示了一种基于级联的与架构无关的解决方案，可以在存在缺失视频的情况下持续实现鲁棒性。

Dec, 2023

动态多模式及视角选择用于缺失模态的多模式情感识别

这项研究的重点是评估两种策略在缺少一个感知模态的情况下的表现和韧性：一种新颖的多模式动态模态和视角选择方法以及一种交叉注意机制。RECOLA 数据集上的结果表明动态选择方法是一种有前景的多模态情感识别方法。在缺失模态的场景下，所有基于动态选择的方法都优于基准测试。研究总结强调了音频和视频模态在情感预测中的复杂相互作用，展示了动态选择方法在处理缺失模态方面的适应性。

Apr, 2024

多模态视觉识别中缺失模态的多模态提示

本文提出一种使用 prompt learning 的多模态学习框架，从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts，可插入到多模态 transformers 中处理不同的模态缺失情况，同时只需要少于 1% 的可学习参数。实验结果表明，该框架有效地提高了在各种模态缺失情况下的性能。

Mar, 2023

文本到图像模型在视觉模态缺失的多模态学习中的应用

通过用生成式变压器填补缺失的视觉数据，我们提出了一个简单但有效的多模态学习框架 GTI-MM，以增强数据效率和模型的鲁棒性，尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析，包括模型的训练，结果显示合成图像有助于训练数据的效率，并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外，我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。

Feb, 2024

面向缺失模态鲁棒性行为识别的良好实践

本文针对多模态动作识别及其中一些模态不可用情况提出一套良好的实践方法，包括数据增强、基于 Transformer 的融合方法以及一个名为 ActionMAE 的模块化网络。通过采用这些方法，建立一个不仅在多模态动作识别中有效，同时对于模态缺失情况也具有鲁棒性的模型，并在多个基准测试中实现了最新技术，并在模态缺失场景中保持有竞争力的表现。

Nov, 2022

关于辍学引发的韧性研究，对于音频视觉语音识别中缺失视频帧的影响

研究了音频 - 视觉语音识别系统对缺失视频帧的敏感性问题，表明在应用 dropout 技术提高对缺失帧的鲁棒性的同时，也导致对完整数据输入性能的损失。通过揭示由于 dropout 引起的对音频存在过多的模态偏差，探究了这一对立现象，同时提出了模态偏差假设（MBH）以系统地描述多模态系统中模态偏差与缺失模态鲁棒性之间的关系。在此基础上，提出了一种新颖的多模态分布近似与知识蒸馏（MDA-KD）框架，可以减少对音频模态的过度依赖，同时维持性能和鲁棒性。最后，为了解决整个模态缺失的问题，采用适配器动态切换决策策略。通过使用 MISP2021 和 MISP2022 数据集进行一系列综合实验评估和验证了我们提出的方法的有效性。

Mar, 2024

在时间连续的多模态情感识别中容纳缺失的模态

提出了一种基于 Transformer 的架构，用于识别情绪的正性和负性，即使输入模态缺失，该模型通过交叉关注和自关注机制强调模态之间的关系，提高了对弱显著输入的学习过程，并在 Ul-TSST 数据集上实验，与后期融合基准方法相比，预测唤醒值的一致性相关系数的评估提高了 37％，预测价值的一致性相关系数的评估提高了 30%。

Nov, 2023

看能增强听：使用图像恢复丢失的语音

本研究探讨了利用图像确立语音识别模型中文字的语义含义，以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能，增强语音信号对语音识别的帮助

Feb, 2020

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023

身份验证任务中音频 - 视觉融合架构的行为分析

我们训练了一个身份验证架构，并评估了该模型合并音频和视觉表示的部分的修改，包括在要比较的两个示例中的任何一个输入缺失的情况下。我们在 Voxceleb1-E 测试集上报告的结果表明，在全模态设置和一个单模态缺失时，对输出嵌入进行平均可以改善错误率，并更充分地利用嵌入空间，这比使用共享层的系统更具优势，并讨论了可能的原因。

Nov, 2023