通过递归融合的联合交叉关注模型和 BLSTMs,本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系,显著提高了融合性能。
Mar, 2024
通过动态交叉注意力(DCA)模型,本文提出了一种能够根据音频和视觉模态之间的强弱互补关系动态选择跨模态关注或不关注特性的模型。实验证明该模型在多个跨模态注意力变体上表现出稳健性,同时优于现有方法的性能。
用多模态方法,包括语音和图像信号,提出了一个基于神经网络的在线人员验证系统。该网络通过学习多感官关联来达到验证任务的目的,并利用了关注机制来选择具有显著性的模态,以提供补充的输入。在 VoxCeleb2 数据集上,该方法表现出比其他多模态和单模态方法更好的鲁棒性和可靠性。
Nov, 2018
本研究提出了一种新的多模态融合联合注意力机制,能够有效地从视听特征中学习联合表示,并通过递归式联合协同作用持续改进,从而在音视频事件定位任务中取得了明显的成果。
Aug, 2020
提出一种基于面部出现和声音特征对语音进行分离的方法,可对五种基准数据集进行音视频语音分离和增强,而且具有较好的泛化性能。
Jan, 2021
本文介绍建立跨语言讲者的面孔和声音之间的关联,在多语言中回答面声关联是否是语言无关的,以及展示在多语言环境下语音特征识别的实验。
Apr, 2020
本文介绍深度多模态学习的方法,用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明,使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。
Jan, 2015
提出了一个统一框架,通过视听联合建模来实现目标说话人检测和语音增强,以建立音频 - 视觉任务中的多模态关联。
Mar, 2022
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。
本文研究人类面孔与声音之间的关联,通过在线研究,在新建数据集上证实人们可以将未见过的面孔与对应的声音相关联,并且我们计算建模了面孔和声音之间的重叠信息,表明该跨模态表示包含足够的信息来识别匹配的面孔和声音,并且此表征具有与某些人口属性和从单一视觉或听觉模式获取的特征的相关性,我们发布了我们的音视数据集和人们朗读短文的人口学注释。
May, 2018