音视频说话人验证的弱监督多任务学习

Sep, 2023

音视频说话人验证的弱监督多任务学习

Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker Verification

Anith Selvakumar, Homa Fashandi

TL;DR本文介绍了一种实现鲁棒的多模式人物表示以优化开放式音视频说话人验证的方法。通过探索多任务学习技术，我们提高了距离度量学习方法的性能，并展示了一个弱标签的辅助任务可以增加学习到的说话人表示的紧凑性。同时，我们将广义端到端损失（GE2E）扩展到多模态输入，并证明其在音视频领域可以达到竞争性的性能。最后，我们引入了一种非同步音视频采样的随机策略，该策略在训练时能改善泛化效果。我们的网络在说话人验证方面达到了最先进的水平，并在 VoxCeleb1-O/E/H 的三个官方试验列表中报告了 0.244%、0.252%、0.441% 的等错误率（EER），据我们所知，这是 VoxCeleb1-E 和 VoxCeleb1-H 的最佳已发表结果。

Abstract

In this paper, we present a methodology for achieving robust multimodal person representations optimized for open-set audio-visual speaker verification. distance metric learning (DML) approaches have typically dominated this problem space, owing to strong performance on new and unseen

multimodal person representations audio-visual speaker verification distance metric learning multitask learning techniques speaker verification

发现论文，激发创造

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

双重导师：一种无偏的音频 - 视觉源定位半监督框架

提出一种新的半监督学习框架，称为 Dual Mean-Teacher（DMT），通过两个教师 - 学生结构绕过确认偏差问题，充分利用有标签和无标签数据，通过教师之间的一致性过滤噪声样本并生成高质量的伪标签，从而在 Audio-Visual Source Localization（AVSL）中取得了明显优于当前先进方法的性能。

Mar, 2024

DiVA：用于深度度量学习的多样化视觉特征聚合

通过多个互补的学习任务，同时优化训练信号以学习一种单一模型，以实现更强的泛化能力和在多个已建立的深度度量学习基准数据集上的最新性能。

Apr, 2020

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

多模态平衡感知梯度调控弱监督音视频解析

本文提出了一种利用动态梯度调制机制来平衡不同语音和视觉模态特征学习的方法，并设计了一种实现精确测量的模态分离决策单元来处理多模式混淆问题，实验证明该方法的有效性。

Jul, 2023

深度多模态无监督音视频聚类学习

提出了一种名为 Deep Multimodal Clustering 的无监督音频视觉学习模型，采用不同共享空间的多模态矢量的卷积映射集，进行多音频视觉对应关系的捕捉和精细对应学习，并通过最大间隔损失进行有效训练。通过实验，该模型可以学习到有效的单模态表示，并在声音定位、多源检测和音频视觉理解方面显示出显著的性能。

Jul, 2018

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

音频和视觉信号的跨模态映射的深度潜在空间学习

该论文提出了一种新颖的深度学习算法，通过单流网络和新的损失函数来实现音频和视觉信息的联合表示，并使用类中心对共享的深层潜在空间表示进行表征，以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估，在跨模式验证和匹配方面实现了最先进的性能，验证了该技术在跨模式生物认证应用中的有效性。

Sep, 2019