通过对抗学习实现说话者无关的训练

Apr, 2018

通过对抗学习实现说话者无关的训练

Speaker-Invariant Training via Adversarial Learning

Zhong Meng, Jinyu Li, Zhuo Chen, Yong Zhao, Vadim Mazalov...

TL;DR本文提出了一种新的对抗多任务学习模型（即 Speaker-invariant training），旨在同时减少发言人的特征变异性并最大化其 Senone 区分性，以增强基于深度神经网络的自动语音识别系统性能，并通过对抗多任务学习来学习说话者不变且区分性 Senone 的深层特征。在此模型的基础上得到的结果比基于传统的对抗模型和 SI 模型组合的 ASR 系统结果更佳。

Abstract

We propose a novel adversarial multi-task learning scheme, aiming at actively curtailing the inter-talker feature variability while maximizing its senone discriminability so as to enhance the performance of a deep neura

adversarial multi-task learning speaker-invariant training deep neural network asr system senone-discriminative

发现论文，激发创造

基于对抗多任务学习的说话人和年龄不变性训练，用于儿童声学建模

本文提出了基于对抗多任务学习的演讲者及年龄不变训练方法，利用时间延迟神经网络生成说话者及年龄不变特征与语音、年龄和演讲者三个判别式网络相连，成功降低了语音识别中的错误率。

Oct, 2022

使用说话人标签改进和对抗：提高自动语音识别

本研究旨在研究如何将增强领域及去除领域差异这两个相反的目标应用于说话人标签以提高 Conformer-based ASR 的性能，并通过适应性渐变反转层进行稳定有效的对抗训练。最佳说话人 MTL 可以在 Switchboard Hub5'00 数据集上实现 7％的相对提高，并在清洁数据集和较弱 ASR NN 方面进行了研究。

Nov, 2022

对抗式学习原始语音特征实现领域不变语音识别

本文探讨了对抗训练在自动语音识别中应用的有效性，在使用 Domain Adversarial Neural Networks (DANNs) 在多个数据集上的实验结果表明，对抗训练能够有效地进行无监督领域自适应，从而强调了 DANNs 从原始语音学习领域不变特征的能力。

May, 2018

噪声语音识别的不变表示

本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示，以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性，尤其适用于仅针对少量噪声类别进行训练的情况。

Nov, 2016

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

通过对抗训练进行说话者不变的情感表示学习

本文提出了一种基于对抗训练网络来消除发言人特征并更好地表示情感的机器学习框架，在 IEMOCAP 和 CMU-MOSEI 数据集上实验表明该框架能够提高语音情感分类的准确性并增加对未知发言人的泛化能力。

Nov, 2019

基于数据及知识驱动的多语言训练方法，提升印度语言语音识别系统的性能

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型，分别在印度语种中取得 9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

基于深度递归神经网络的话语级别不变置换训练的多说话者语音分离

本文提出了逐句级别的置换不变训练（uPIT）技术，利用循环神经网络实现了多说话人语音分离，无需事先了解信号时长、说话人数量、身份和性别，且模型具有很好的泛化性能，在实验中表现优异。

Mar, 2017

对比学习：提高口语理解的 ASR 鲁棒性

本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示，并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。

May, 2022

面向说话人识别系统的实时、通用和强鲁棒对抗攻击

本文提出了第一种实时、通用且强健的对抗攻击方案，能通过在任意用户的语音输入上添加通用扰动，在线进行万能识别。同时，利用房间脉冲响应 (RIR) 对声音失真进行建模，提高攻击的鲁棒性。在公共数据集上的实验表明，这种攻击的成功率高达 90% 以上，并且攻击速度比当代非通用攻击快 100 倍。

Mar, 2020