具有发音感知嵌入的语音自动识别转换器

Apr, 2024

具有发音感知嵌入的语音自动识别转换器

Transducers with Pronunciation-aware Embeddings for Automatic Speech Recognition

Hainan Xu, Zhehuai Chen, Fei Jia, Boris Ginsburg

TL;DR该论文提出了具有发音感知嵌入的转录器（PET）。通过在文本令牌中具有相同或相似发音的标记中引入共享组件，PET 模型的解码器嵌入不同于传统转录器，其解码器嵌入根据共同的发音特征进行训练。我们在中文和韩文的多个数据集上进行的实验证明，与传统转录器相比，PET 模型始终提高了语音识别的准确性。我们的研究还揭示了一个错误链反应的现象。与将识别错误均匀分布在一个说话过程中不同，识别错误往往会聚集在一起，后续错误经常跟随先前错误的发生。我们的分析表明，PET 模型通过显著降低在先前错误后生成额外错误的可能性有效减轻了这个问题。我们的实现将与 NeMo 工具包一起开源。

Abstract

This paper proposes transducers with pronunciation-aware embeddings (PET). Unlike conventional transducers where the decoder embeddings fo

transducers pronunciation-aware embeddings pet models speech recognition error chain reactions

发现论文，激发创造

文本到语音的神经传感器和发声器：基于语义标记预测的方法

基于神经传导器的文本到语音 (TTS) 框架，通过使用从 wav2vec2.0 嵌入中获得的离散语义标记，易于采用神经传导器实现 TTS 框架，从而享受其单调对齐约束；该模型首先通过神经传导器生成对齐的语义标记，然后使用非自回归 (NAR) 语音生成器从语义标记合成语音样本，该分离框架减轻了 TTS 的训练复杂性，使得每个阶段能够分别专注于语言和对齐建模以及细粒度声学建模；在零样本自适应 TTS 上的实验结果表明，通过客观和主观指标，该模型在语音质量和说话人相似度方面超过了基准模型；我们还研究了我们提出的模型的推断速度和语调可控性，展示了神经传导器在 TTS 框架中的潜力。

Nov, 2023

基于语义标记预测的两阶段文本到语音的神经转换器

我们提出了一种以神经推导器为中心的新型文本转语音（TTS）框架，将整个 TTS 流程分为语义级序列到序列建模和细粒度声学建模阶段，并利用从 wav2vec2.0 嵌入中获取的离散语义标记。我们采用了一种名为令牌推导器的神经推导器，用于语义标记预测以实现稳健高效的对齐建模，从其固有的硬单调对齐约束中受益。接下来，一个非自回归（NAR）语音生成器从这些语义标记有效地合成波形。此外，参考语音在每个阶段控制时间动态和声学条件。这种解耦的框架降低了 TTS 的训练复杂性，同时使每个阶段能够专注于语义和声学建模。我们在零 - shot 自适应 TTS 上的实验证明，我们的模型在语音质量和说话人相似性方面超过了基准模型，无论是客观上还是主观上。我们还深入探讨了我们方法在推理速度和韵律控制能力方面的优势，突出了神经推导器在 TTS 框架中的潜力。

Jan, 2024

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

利用参数高效的迁移学习进行多语言文本到语音调整

在多种语言环境中，为了有效地合成语音，开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中，将参数高效的迁移学习方法（如适配器和超网络）与 TTS 架构集成的方法，并在实验中证明这种方法在性能上能够与全面微调方法相媲美甚至更好，参数数量仅为总参数的约 2.5%。

Jun, 2024

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

May, 2023

PATCorrect：非自回归音素增强 Transformer 用于 ASR 误差校正

本文提出了一种基于 Transformer 模型和音素编码器的新型非自回归（NAR）纠错方法，该方法通过减少单词错误率（WER）来提高转录质量，并在不同的上游 ASR 系统中实现了鲁棒性能，特别是在 GPU 硬件上实现了与其他 NAR 模型相当的推断延迟，并且比自回归模型快 4.2-6.7 倍。

Feb, 2023

探索神经传递器用于端到端语音识别

通过实证比较，证明 Seq2Seq 和 RNN-Transducer 模型在不使用语言模型的情况下都优于最佳的 CTC 模型，使得语音识别流程可以纯粹地表述为神经网络操作。我们还研究了编码器架构选择对三个模型性能的影响。

Jul, 2017

Transformer-Transducer: 自注意力端到端语音识别

本文研究了使用 Transformer 网络来实现端到端语音识别，提出使用 VGGNet 结合因果卷积来降低计算复杂度，同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验，该方法相比于基于 LSTM/BLSTM 的神经输入转换器，获得了更好的识别效果，并实现了流式处理。

Oct, 2019