本文使用先进的贝叶斯神经网络来检测对抗性噪声干扰下的自动语音识别系统,实验结果表明,该检测系统相对于当前现有的增强方法,可以提高 2.77% 至 5.42% 的检测率,并且可以将单词错误率降低 5.02% 至 7.47%。
Feb, 2022
本文探讨了对抗训练在自动语音识别中应用的有效性,在使用 Domain Adversarial Neural Networks (DANNs) 在多个数据集上的实验结果表明,对抗训练能够有效地进行无监督领域自适应,从而强调了 DANNs 从原始语音学习领域不变特征的能力。
May, 2018
本文提出了一种新的对抗多任务学习模型(即 Speaker-invariant training),旨在同时减少发言人的特征变异性并最大化其 Senone 区分性,以增强基于深度神经网络的自动语音识别系统性能,并通过对抗多任务学习来学习说话者不变且区分性 Senone 的深层特征。在此模型的基础上得到的结果比基于传统的对抗模型和 SI 模型组合的 ASR 系统结果更佳。
Apr, 2018
本文提出了一种利用生成对抗网络(GAN)优化端到端框架,实现鲁棒语音识别的方法,该方法能够使编码器具有改进的不变性,而不需要依赖于专业知识或简化假设,并通过数据驱动的方式,直接提高模型的鲁棒性,从而提高了模型的远场语音识别能力。
Nov, 2017
研究一种修改最小二乘 GAN 的方案以满足切片对抗网络(SAN)要求,通过实验验证切片对抗网络对基于 GAN 的合成器,包括 BigVGAN 的性能改进。
Sep, 2023
本文研究将自我关注网络和带增强记忆的自我关注层引入自动语音识别中,提出了一种 DFSMN-SAN 架构来比较两种类型的自我关注层的效果,实验证明该模型在大规模语音识别任务中相较于基准模型有较大幅度的性能提升。
Oct, 2019
本篇论文介绍了一种新颖的卷积自注意力网络,通过引入多头注意力机制,加强了邻近元素之间的依赖关系,并能够对各个注意力头提取的特征之间的交互进行建模,用于机器翻译任务中能有效提高自注意力网络的本地性,实验证明该方法优于常用的 Transformer 模型和其他已有的模型,并且没有更多的额外参数。
Apr, 2019
本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。
May, 2020
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示,以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性,尤其适用于仅针对少量噪声类别进行训练的情况。
Nov, 2016