缺失鲁棒性的视觉增强多模态语篇错流检测

Jun, 2024

缺失鲁棒性的视觉增强多模态语篇错流检测

Missingness-resilient Video-enhanced Multimodal Disfluency Detection

Payal Mohapatra, Shamika Likhite, Subrata Biswas, Bashima Islam, Qi Zhu

TL;DR现有的语音故障检测技术只依赖于声学数据，本研究提出了一种实用的多模态故障检测方法，利用可用的视频数据与音频结合。我们策划了一个音频 - 视觉数据集，并提出了一种新颖的融合技术，使用权值共享的模态不可知编码器来学习时态和语义上下文。我们的可靠设计适应了视频模态在推断过程中有时可能丢失的现实场景。当两种模态始终可用时，我们还提供了备选融合策略。在五个故障检测任务的实验中，我们的统一多模态方法明显优于仅音频的单模态方法，当视频和音频模态始终可用时，平均绝对改进率为 10%（即百分点增加 10%），即使在一半的样本中视频模态丢失，仍然有 7% 的改进。

Abstract

Most existing speech disfluency detection techniques only rely upon acoustic data. In this work, we present a practical multimodal disfluency detection approach that leverages available video data together with audio. We curate an →

speech disfluency detection multimodal approach audiovisual dataset fusion technique modalities

发现论文，激发创造

一种新的多模态动态融合网络用于口语话语中的干扰检测

本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构，通过使用文本和声学模态之间的多模态动态融合网络，在个体话语中进行语调检测，结果表明在英语 Switchboard 上，我们的模型实现了最先进的效果，并且在文献中优于以前的单模态和多模态系统。

Nov, 2022

关于辍学引发的韧性研究，对于音频视觉语音识别中缺失视频帧的影响

研究了音频 - 视觉语音识别系统对缺失视频帧的敏感性问题，表明在应用 dropout 技术提高对缺失帧的鲁棒性的同时，也导致对完整数据输入性能的损失。通过揭示由于 dropout 引起的对音频存在过多的模态偏差，探究了这一对立现象，同时提出了模态偏差假设（MBH）以系统地描述多模态系统中模态偏差与缺失模态鲁棒性之间的关系。在此基础上，提出了一种新颖的多模态分布近似与知识蒸馏（MDA-KD）框架，可以减少对音频模态的过度依赖，同时维持性能和鲁棒性。最后，为了解决整个模态缺失的问题，采用适配器动态切换决策策略。通过使用 MISP2021 和 MISP2022 数据集进行一系列综合实验评估和验证了我们提出的方法的有效性。

Mar, 2024

关于音视觉语音识别对缺失视频的鲁棒性

通过引入一个可以准确且可测试地评估鲁棒性的框架，我们对常见的多模态语音识别架构在各种噪声条件和测试套件中的鲁棒性进行了系统的实证研究，并展示了一种基于级联的与架构无关的解决方案，可以在存在缺失视频的情况下持续实现鲁棒性。

Dec, 2023

面向音视频表情识别的处理缺失模态的训练策略

研究了当其中一个模态缺失时，自动音视频表情识别中 transformer 模型的表现，通过消融实验和随机消融训练数据的策略，提高了模型的泛化性能。

Oct, 2020

从视觉和声音模态获取无文本情感的可扩展多模态情感分类

本文介绍了一种多模态融合模型，该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试，并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。

Jul, 2018

多模态数据自适应融合技术

本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Nov, 2019

音视频不协调基于深度伪造检测与定位

本文提出了一种基于模态不和谐度量（Modality Dissonance Score，MDS）的深度伪造视频检测算法，通过计算视频中音频和视觉段之间的差异得出 MDS，同时采用交叉熵和对比损失进行学习，并在 DFDC 和 DeepFake-TIMIT 数据集上的实验表明，该方法表现优于现有技术，还可以进行时间伪造定位，准确识别伪造视频段。

May, 2020

重新思考弱监督的音频 - 视觉视频解析中的跨模态融合

通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法，本研究提出了一种新的弱监督音频 - 视觉视频解析框架，以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明，我们的框架相比现有的最先进方法，表现更加优越。

Nov, 2023

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

多模态情感分析中的遗漏模态：一种知识迁移方法

提出了一种新颖的知识传递网络来在不同的感知模式之间进行翻译以重构缺失的音频模式，并且采用了跨模态注意机制以保留重构和观察到的模态的最大信息，用于情感预测。通过对三个公开数据集进行大量实验证明，相较于基线方法实现了显著的改进，并在完全多模态监督方面取得了与之前方法相当的结果。

Dec, 2023