使用合成音频改善端到端 ASR 系统中新词的识别

Nov, 2020

使用合成音频改善端到端 ASR 系统中新词的识别

Using Synthetic Audio to Improve The Recognition of Out-Of-Vocabulary Words in End-To-End ASR Systems

Xianrui Zheng, Yulan Liu, Deniz Gunceler, Daniel Willett

TL;DR利用 TTS 引擎为训练数据中不常见的词提供合成音频，并使用正则化技术在编码器上应用弹性权重整合，从而提高 RNN-T 对 OOV 词的识别准确率并保持对非 OOV 词的性能，相对 WER 可减少 57％。

Abstract

Today, many state-of-the-art automatic speech recognition (ASR) systems apply all-neural models that map audio to word sequences trained end-to-end along one global optimisation criterion in a fully data driven f

automatic speech recognition neural models out-of-vocabulary words text-to-speech recurrent neural network

发现论文，激发创造

强调未见过的单词：端到端语音识别的新词汇习得

本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习，并且相比于之前的方法，该方法可以实现更高的召回率和更高的准确性。

Feb, 2023

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

SynthASR: 用于语音识别的合成数据解锁

本文提出了一个多阶段训练策略，包括数据增强，编码器冻结和参数正则化，并利用人工合成音频提高医疗用途语音识别（ASR）的识别性能，降低了生产数据的成本和依赖性。

Jun, 2021

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

基于上下文的印度语 ASR 系统中的生词恢复

本文提出了一种基于声学增强的语言模型的后处理方法，通过基于语境和音素知识来匹配和恢复正确的上下文单词，该方法可以在多个类别中恢复平均 50% 的基于上下文的未登录词。

Jun, 2022

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

Wiki-En-ASR-Adapt：大规模英语自动语音识别定制的合成数据集

提出一个首个大规模的公开合成数据集，用于上下文拼写检查自定义自动语音识别（ASR）中的多样罕见和词汇外（OOV）短语，如专有名词或术语。通过注入两种类型的 “困难负面” 短语到模拟的偏见列表中，我们的方法可以创建数百万个真实的损坏 ASR 假设示例，并模拟定制任务的非平凡偏见列表，同时描述了自动挖掘它们的过程。通过在提出的数据集上训练开源定制模型进行实验，我们显示出注入困难负面偏见短语可以降低 WER 和误报数目。

Sep, 2023

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

TTS-by-TTS: 基于 TTS 的数据增强技术，实现快速高质量语音合成

本文提出了一种基于 TTS 的数据增强方法，用于改进非自回归 TTS 系统的质量，实验表明该方法显著提高了非自回归 TTS 系统的质量。

Oct, 2020