身份验证任务中音频 - 视觉融合架构的行为分析

Nov, 2023

身份验证任务中音频 - 视觉融合架构的行为分析

On the Behavior of Audio-Visual Fusion Architectures in Identity Verification Tasks

Daniel Claborne, Eric Slyman, Karl Pazdernik

TL;DR我们训练了一个身份验证架构，并评估了该模型合并音频和视觉表示的部分的修改，包括在要比较的两个示例中的任何一个输入缺失的情况下。我们在 Voxceleb1-E 测试集上报告的结果表明，在全模态设置和一个单模态缺失时，对输出嵌入进行平均可以改善错误率，并更充分地利用嵌入空间，这比使用共享层的系统更具优势，并讨论了可能的原因。

Abstract

We train an identity verification architecture and evaluate modifications to the part of the model that combines audio and visual representations, including in scenarios where one input is missing in either of tw

identity verification architecture audio and visual representations averaging output embeddings error rate embedding space

发现论文，激发创造

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

基于注意力神经网络融合的噪声容忍音视频人员在线验证

用多模态方法，包括语音和图像信号，提出了一个基于神经网络的在线人员验证系统。该网络通过学习多感官关联来达到验证任务的目的，并利用了关注机制来选择具有显著性的模态，以提供补充的输入。在 VoxCeleb2 数据集上，该方法表现出比其他多模态和单模态方法更好的鲁棒性和可靠性。

Nov, 2018

面向音视频表情识别的处理缺失模态的训练策略

研究了当其中一个模态缺失时，自动音视频表情识别中 transformer 模型的表现，通过消融实验和随机消融训练数据的策略，提高了模型的泛化性能。

Oct, 2020

关于音视觉语音识别对缺失视频的鲁棒性

通过引入一个可以准确且可测试地评估鲁棒性的框架，我们对常见的多模态语音识别架构在各种噪声条件和测试套件中的鲁棒性进行了系统的实证研究，并展示了一种基于级联的与架构无关的解决方案，可以在存在缺失视频的情况下持续实现鲁棒性。

Dec, 2023

揭示视听早期融合变压器的强大力量：通过遮蔽建模实现密集交互

本文介绍了使用掩模重建框架和基于注意力的融合模块来训练早期融合的音频 - 视觉编码器，以实现高效深度集成的音频 - 视觉模型。实验证明该方法在音频事件分类、视觉声音定位、音频分离和音频 - 视觉分割方面表现优越，极大地推动了早期融合架构的应用。

Dec, 2023

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

研究音频、视觉和文本融合方法，实现端到端的自动人格预测

通过音频、文字和视频数据，采用多模态融合的方法，使用卷积神经网络预测大五人格特质分数，证明复杂交互能建立更好的模型与预测，该模型可用于提高虚拟代理的情商。

May, 2018

基于 3D 卷积神经网络的跨模态音视频匹配识别

本文提出了一种利用耦合三维卷积神经网络架构来映射音频和视频流到统一表示空间，从而有效地找到不同模态之间时间信息的关联性的 AVR 方法，并且相对于现有的采用 3D CNN 特征表示的视听匹配方法，使用较小的网络架构和数据集进行训练，我们的方法显著提高了性能，相比于最先进的方法 Equal Error Rate（EER）的相对改进超过 20% ，而平均准确度（AP）的相对改进超过 7%。

Jun, 2017

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023