Jun, 2024

缺失鲁棒性的视觉增强多模态语篇错流检测

TL;DR现有的语音故障检测技术只依赖于声学数据,本研究提出了一种实用的多模态故障检测方法,利用可用的视频数据与音频结合。我们策划了一个音频 - 视觉数据集,并提出了一种新颖的融合技术,使用权值共享的模态不可知编码器来学习时态和语义上下文。我们的可靠设计适应了视频模态在推断过程中有时可能丢失的现实场景。当两种模态始终可用时,我们还提供了备选融合策略。在五个故障检测任务的实验中,我们的统一多模态方法明显优于仅音频的单模态方法,当视频和音频模态始终可用时,平均绝对改进率为 10%(即百分点增加 10%),即使在一半的样本中视频模态丢失,仍然有 7% 的改进。