通过数据增强、半监督学习和后对齐方法改善神经逆文本规范化的鲁棒性

Sep, 2023

通过数据增强、半监督学习和后对齐方法改善神经逆文本规范化的鲁棒性

Improving Robustness of Neural Inverse Text Normalization via Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method

PDF

Juntae Kim, Minkyu Lim, Seokjin Hong

TL;DR逆文本规范化（ITN）对于将口语形式转换为书面形式至关重要，尤其在自动语音识别（ASR）的背景下。虽然 ASR 的大多数下游任务依赖于书面形式，但 ASR 系统通常输出口语形式，这突出了在产品级 ASR 应用中稳健的 ITN 的必要性。虽然神经 ITN 方法已经显示出潜力，但它们在处理 ASR 生成的口语文本时仍然面临性能挑战。这些挑战源于训练数据和 ASR 生成文本之间的域外问题。为了解决这个问题，我们提出了一种直接训练方法，它利用 ASR 生成的书面或口语文本，并通过 ASR 语言环境仿真和半监督学习方法增强了大型语言模型，增加了数据对。此外，我们引入了一种后对齐方法来处理不可预测的错误，从而提高了 ITN 的可靠性。我们的实验表明，在各种 ASR 场景中，我们提出的方法显著改善了 ITN 的性能。

Abstract

inverse text normalization (ITN) is crucial for converting spoken-form into written-form, especially in the context of automatic speech recognition (ASR). While most downstream tasks of ASR rely on written-form,

inverse text normalization automatic speech recognition neural itn methods asr-generated spoken text itn performance

发现论文，激发创造

利用数据增强改进基于数据驱动的逆文本规范化

本文介绍一种数据增强技术，可有效地从领域外的文本数据生成丰富的口头书面数字对，可用于逆文本规范化模型的训练，通过在所有数字表面上的总精度提高了 14.44％，表明了在数据量和成本等方面的优势。

Jul, 2022

基于数据驱动的语言无关反向文本规范化

本研究提出了一种语言不可知的数据驱动反文本归一化框架，通过数据增强和神经机器翻译数据，填补了非英语标记语料库与自动语音识别模型转换到书写形式文本的方法的不足。实证评估表明，该模型有效地处理了低资源语言，同时保持了高资源语言的性能。

Jan, 2023

Thutmose 标注器：用于反向文本规范化的单通神经模型

本文提出了一种基于单通词分类器模型的逆文本规范化方法，该方法通过在每个输入标记上分配替换片段或标记它们以进行复制或删除来执行此任务，并通过基于 ITN 实例的颗粒对齐的数据集准备方法来缓解网络模型的幻觉问题。此方法在英语和俄语测试集上均取得了最新的句子准确率。

Jul, 2022

基于设备的流式快速精准逆文本规范化技术应用于自动语音识别

本文描述了一种轻量级、准确的现场 Inverse Text Normalization（ITN）系统，通过使用流式 Transformer 标记器和 ITN 分类特定的 WFST，可在标记的文本上可靠地执行 ITN 转换，比基线模型小得多且具有自定义能力。

Nov, 2022

四合一：联合逆文本规范化、标点、大写和表达不流畅对于自动语音识别的方法

本文提出一种统一的自动语音转换为书写形式文本的方法，使用了一个两阶段的过程实现了逆文本规范化、标点符号、大写和不流畅的统一标注，然后使用权重有限状态转换器语法来格式化标注的 ITN 实体跨度。该方法在自然语言处理中的成果优于专门的模型。

Oct, 2022

Proteno：基于少量数据的文本归一化技术，用于快速部署文本转语音系统

使用少于 3% 英文数据的量，我们提出了一种新颖的体系结构来促进多种语言的 TTS 文本归一化系统，将 TN 视为一个序列分类问题，并提出了一种细粒度的分词机制，该机制使系统能够从训练数据本身学习大部分类及其归一化，同时结合最少的预先编码的语言知识来处理其他类别，我们发表了 TN 在西班牙语和泰米尔语 TTS 中的首个结果，并证明了该方法的性能与英文上的以前工作相当。

Apr, 2021

文本标准化的循环神经网络方法：一项挑战

该论文介绍了一个挑战：给定一个大型的文本语音对齐数据集，通过训练递归神经网络 (RNN) 来学习正确的文本归一化函数。论文提供了一个通用文本数据集，其中归一化是使用现有的文本到语音系统的文本归一化组件生成的，并表明简单的 FST 过滤器可以减轻 RNN 产生的错误，旨在为序列到序列建模提供一个新的数据集，以期寻找更好的解决方案。

Oct, 2016

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强 NMT 系统适应典型 ASR 错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023

提高语音翻译的稳健性

提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性，通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征，使 NMT 可以在类似的单词分布下进行训练和测试，实验结果表明，该方法在多个噪声测试集上的稳定性表现优异，并在 WMT'17 中英测试集上取得了泛化性能的提高。

Nov, 2018