一种用于上下文化普通话语音识别的高效文本增强方法

Jun, 2024

一种用于上下文化普通话语音识别的高效文本增强方法

An efficient text augmentation approach for contextualized Mandarin speech recognition

Naijun Zheng, Xucheng Wan, Kai Liu, Ziqing Du, Zhou Huan

TL;DR使用简单的文本增强技术借助大量纯文本数据集来构建编码簿，可以提高预训练的 ASR 模型的上下文信息，从而显著提升识别性能。

Abstract

Although contextualized automatic speech recognition (ASR) systems are commonly used to improve the recognition of uncommon words, their effectiveness is hindered by the inherent limitations of speech-text data availability. To address this challenge, our study proposes to leverage ext

contextualized automatic speech recognition text-augmentation pre-trained asr models codebook recognition performance

发现论文，激发创造

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

阿拉伯语 - 英语代码切换语音识别的文本数据增强

本文基于随机词汇替换和等价约束，利用对齐翻译对生成随机合法的混合语言内容进行零样本学习，以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题，实验结果显示，所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER，而采用等价约束的人类评估表明，80% 以上的内容质量足够。

Jan, 2022

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

神经背景性偏倚的文本插入

通过上下文中注入文本的方式，使用大规模未配对的文本来优化自动语音识别（ASR）模型及其偏置成分，提高重要短语的识别准确率。实验证明，使用 1000 亿个文本句子进行 CTI，相对于强大的神经偏置模型，可以实现高达 43.3% 的相对词错误率的降低。CTI-MWER 进一步提供了 23.5% 的相对改进。

Jun, 2024

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019