跨模态判别式网络的音视频说话人识别

Aug, 2020

跨模态判别式网络的音视频说话人识别

Audio-visual Speaker Recognition with a Cross-modal Discriminative Network

Ruijie Tao, Rohan Kumar Das, Haizhou Li

TL;DR使用跨模态网络 VFNet（Voice-Face Disciminative Network）来建立人类语音和面部之间的关系，辅助音视觉说话人识别，相较于 2019 年 NIST SRE 中评估集的基准音视频融合，VFNet 实现了 16.54% 相对的准确率降低。

Abstract

audio-visual speaker recognition is one of the tasks in the recent 2019 NIST speaker recognition evaluation (SRE). Studies in neuroscience and computer science all point to the fact that vision and auditory neural signa

audio-visual speaker recognition voice-face discriminative network neural signals cognitive process 2019 nist sre

发现论文，激发创造

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

AV-CrossNet: 一种用于语音分离的音视频复杂频谱映射网络，利用窄频和交叉频带建模

添加视觉线索到基于音频的语音分离可以提高分离性能。本文介绍了一种名为 AV-CrossNet 的音视系统，用于语音增强、目标说话人提取和多说话人分离。AV-CrossNet 扩展自 CrossNet 架构，它是一种最近提出的网络，通过利用全局注意力和位置编码来执行复杂的频谱映射以进行语音分离。为了有效利用视觉线索，该系统结合了预先提取的视觉嵌入并采用了由时间卷积层组成的视觉编码器。音频和视觉特征在早期融合层中融合后馈送到 AV-CrossNet 块。我们使用多个数据集对 AV-CrossNet 进行评估，包括 LRS、VoxCeleb 和 COG-MHEAR 挑战。评估结果表明，AV-CrossNet 在所有音视任务上推动了最先进的性能，即使在未经训练和不匹配的数据集上也是如此。

Jun, 2024

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018

视音频生物特征匹配

本文研究了跨模态匹配，通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集，使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配，并比较了动态和静态测试，得出了 CNN 在此任务上表现优秀并超越了人类表现。

Apr, 2018

探寻你的语音：学习音视频跨模态关联用于音视频语音分离

本文介绍了一种通过使用音频视觉神经处理技术解决从视频中分离个别语音信号的方法，提出了使用交叉模态亲和力网络（CaffNet）解决由于传输延迟不匹配或抖动引起的两种模态之间的帧不连续问题，并在复杂光谱领域上扩展该模型，实验结果表明此方法在各种数据集上优于传统方法，具有在实际场景中的优势。

Mar, 2021

基于注意力神经网络融合的噪声容忍音视频人员在线验证

用多模态方法，包括语音和图像信号，提出了一个基于神经网络的在线人员验证系统。该网络通过学习多感官关联来达到验证任务的目的，并利用了关注机制来选择具有显著性的模态，以提供补充的输入。在 VoxCeleb2 数据集上，该方法表现出比其他多模态和单模态方法更好的鲁棒性和可靠性。

Nov, 2018

基于 3D 卷积神经网络的跨模态音视频匹配识别

本文提出了一种利用耦合三维卷积神经网络架构来映射音频和视频流到统一表示空间，从而有效地找到不同模态之间时间信息的关联性的 AVR 方法，并且相对于现有的采用 3D CNN 特征表示的视听匹配方法，使用较小的网络架构和数据集进行训练，我们的方法显著提高了性能，相比于最先进的方法 Equal Error Rate（EER）的相对改进超过 20% ，而平均准确度（AP）的相对改进超过 7%。

Jun, 2017

判别式多模态语音识别

本文提出了一种基于视听的两阶段语音识别模型，该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率，同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能，实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升，表明 AE-MSR 的必要性和有效性。

May, 2020

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019