SAN: 一个强健的端到端自动语音识别模型架构

Oct, 2022

SAN: 一个强健的端到端自动语音识别模型架构

SAN: a robust end-to-end ASR model architecture

Zeping Min, Qian Ge, Guanhua Huang

TL;DR本研究提出一种新颖的 Siamese Adversarial Network (SAN) 结构，可以显著降低字符误差率（CER），实现了自动语音识别任务上的新突破。该网络能够捕捉到更多的声学特征，同时优化输出分布，适用于含有不清晰音频的数据集。

Abstract

In this paper, we propose a novel siamese adversarial network (SAN) architecture for automatic speech recognition, which aims at solving the difficulty of fuzzy audio recognition. Specifically, SAN constructs two

siamese adversarial network automatic speech recognition acoustic features character error rate phoneme recognition

发现论文，激发创造

基于贝叶斯神经建模的端到端语音识别增强方法应对闭模型对抗样本

本文使用先进的贝叶斯神经网络来检测对抗性噪声干扰下的自动语音识别系统，实验结果表明，该检测系统相对于当前现有的增强方法，可以提高 2.77% 至 5.42% 的检测率，并且可以将单词错误率降低 5.02% 至 7.47%。

Feb, 2022

对抗式学习原始语音特征实现领域不变语音识别

本文探讨了对抗训练在自动语音识别中应用的有效性，在使用 Domain Adversarial Neural Networks (DANNs) 在多个数据集上的实验结果表明，对抗训练能够有效地进行无监督领域自适应，从而强调了 DANNs 从原始语音学习领域不变特征的能力。

May, 2018

通过对抗学习实现说话者无关的训练

本文提出了一种新的对抗多任务学习模型（即 Speaker-invariant training），旨在同时减少发言人的特征变异性并最大化其 Senone 区分性，以增强基于深度神经网络的自动语音识别系统性能，并通过对抗多任务学习来学习说话者不变且区分性 Senone 的深层特征。在此模型的基础上得到的结果比基于传统的对抗模型和 SI 模型组合的 ASR 系统结果更佳。

Apr, 2018

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

BigVSAN：利用切片对抗网络增强基于 GAN 的神经声码器

研究一种修改最小二乘 GAN 的方案以满足切片对抗网络（SAN）要求，通过实验验证切片对抗网络对基于 GAN 的合成器，包括 BigVGAN 的性能改进。

Sep, 2023

利用持久性内存模型的 DFSMN-SAN 自动语音识别

本文研究将自我关注网络和带增强记忆的自我关注层引入自动语音识别中，提出了一种 DFSMN-SAN 架构来比较两种类型的自我关注层的效果，实验证明该模型在大规模语音识别任务中相较于基准模型有较大幅度的性能提升。

Oct, 2019

卷积自注意力网络

本篇论文介绍了一种新颖的卷积自注意力网络，通过引入多头注意力机制，加强了邻近元素之间的依赖关系，并能够对各个注意力头提取的特征之间的交互进行建模，用于机器翻译任务中能有效提高自注意力网络的本地性，实验证明该方法优于常用的 Transformer 模型和其他已有的模型，并且没有更多的额外参数。

Apr, 2019

基于 Transformer 的端到端语音识别中简化的自注意力机制

本文提出了一种简化的自我注意力（SSAN）层，用于 Transformer 模型的端到端语音识别任务中，以降低模型复杂度和维护良好性能，并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明，我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少，在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低，而且在 20000 小时的大规模任务中，模型失去识别性能。

May, 2020

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

噪声语音识别的不变表示

本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示，以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性，尤其适用于仅针对少量噪声类别进行训练的情况。

Nov, 2016