超越通用 Transformer: 在 Transformer 中使用适配器进行块重复以进行自动语音识别
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
Feb, 2022
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法,成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构,实验结果表明,我们能够通过将数字精度减少到 8 位定点精度,将全精度模型的参数数量减小并将模型进一步压缩 4 倍,同时维持模型高精度。
Nov, 2019
本文提出了通过训练神经上下文适配器来实现个性化的自动语音识别(ASR)模型,并表明,相对于浅层融合方法,这种方法不依赖于外部语言模型且性能更好。
May, 2022
近年来,由于转换器等深度学习架构的进展,端到端(E2E)自动语音识别(ASR)模型的演变令人瞩目。在 E2E 系统的基础上,研究人员通过使用音素模型对 E2E 模型的 N 个最佳假设进行重新评分,实现了相当大的准确性提升。我们研究了驱动这些改进的潜在机制,并提出了一种高效的联合训练方法,其中 E2E 模型与多样的建模单元联合训练。这种方法不仅使音素和字素模型的优势得到了衔接,还揭示出以这些多样的建模单元协同方式使用可以显著提高模型的准确性。我们的发现为在开发更可靠准确的 ASR 系统时,异构建模单元的最佳整合提供了新的见解。
Jun, 2024
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
提出了基于适配器的多域 Transformer 语言模型,在只有小型适配器及其相关层的情况下,该模型可以进行多域自适应,并可以重复使用全细调的语言模型,从而可有效减少模型维护成本。使用这种方法,观察到具有适配器的通用 LM 在词错误率方面优于专用音乐领域 LM。
Aug, 2020
本文提出了一种方法,通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题,并扩展了注意力机制的解码器和神经音响模式的解码器,以实现错误率的降低。
Feb, 2022
本研究利用 Speech-Transformer (SST) 研究 E2E 模型的说话人感知训练,提出了一个 Speaker-Aware Speech-Transformer (SAST) 模型,在静态的说话人知识块基础上生成加权的说话人嵌入向量,成功地将训练说话人的因素规范化,相较于独立于某个特定训练说话人的 baseline 模型,SAST 取得了相对 6.5% 的 CER 减少。
Jan, 2020
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020