通过跨模态联合注意力来提升说话人验证的性能,进一步发掘音频和视觉融合在说话人验证领域的潜力。
Sep, 2023
通过动态交叉注意力(DCA)模型,本文提出了一种能够根据音频和视觉模态之间的强弱互补关系动态选择跨模态关注或不关注特性的模型。实验证明该模型在多个跨模态注意力变体上表现出稳健性,同时优于现有方法的性能。
Mar, 2024
用多模态方法,包括语音和图像信号,提出了一个基于神经网络的在线人员验证系统。该网络通过学习多感官关联来达到验证任务的目的,并利用了关注机制来选择具有显著性的模态,以提供补充的输入。在 VoxCeleb2 数据集上,该方法表现出比其他多模态和单模态方法更好的鲁棒性和可靠性。
Nov, 2018
本研究提出了一种新的多模态融合联合注意力机制,能够有效地从视听特征中学习联合表示,并通过递归式联合协同作用持续改进,从而在音视频事件定位任务中取得了明显的成果。
Aug, 2020
本文提出了一种递归联合注意模型,结合长短期记忆模块,用于融合语音和面部表情进行基于回归的情感识别,结果表明该模型比现有技术表现更好。
Apr, 2023
通过跨模态学习方法的视听特征融合,我们提出了一种用于改进深假检测的两阶段方法,可以明确地捕捉音频和视觉模态之间的对应关系,并在真实和伪造视频上进行监督学习,取得了 98.6% 的准确率和 99.1% 的 AUC,相较于当前的音视混合最先进技术,准确率和 AUC 分别提高了 14.9% 和 9.9%。
Jun, 2024
本文介绍了使用掩模重建框架和基于注意力的融合模块来训练早期融合的音频 - 视觉编码器,以实现高效深度集成的音频 - 视觉模型。实验证明该方法在音频事件分类、视觉声音定位、音频分离和音频 - 视觉分割方面表现优越,极大地推动了早期融合架构的应用。
Dec, 2023
本文介绍深度多模态学习的方法,用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明,使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。
Jan, 2015
我们训练了一个身份验证架构,并评估了该模型合并音频和视觉表示的部分的修改,包括在要比较的两个示例中的任何一个输入缺失的情况下。我们在 Voxceleb1-E 测试集上报告的结果表明,在全模态设置和一个单模态缺失时,对输出嵌入进行平均可以改善错误率,并更充分地利用嵌入空间,这比使用共享层的系统更具优势,并讨论了可能的原因。
Nov, 2023
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。