通过有效的文本数据利用和潜在合成提高端到端语音处理效果

Oct, 2023

通过有效的文本数据利用和潜在合成提高端到端语音处理效果

Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis

Jianqiao Lu, Wenyong Huang, Nianzu Zheng, Xingshan Zeng, Yu Ting Yeung...

TL;DR通过训练一个转换文本数据的潜在合成器，我们提出了一种高效的文本数据利用框架 Latent Synthesis (LaSyn)，用于 E2E 语音处理模型。在低资源自动语音识别（ASR）和口语理解（SLU）任务中，LaSyn 通过为模型训练提供了伪声学表示的文本数据，分别在不同测试集上使 E2E 基线的词错误率降低了 22.3% 以上，并提高了意图分类准确率 4.1% 和槽位填充准确率 3.8%，在 STOP 上分别提高了 4.49% 和 2.25% 的准确率。同时，LaSyn 使用更少的参数，取得了与现有最先进作品相媲美的结果，证明了增强训练数据的质量。

Abstract

Training a high performance end-to-end speech (E2E) processing model requires an enormous amount of labeled speech data, especially in the era of data-centric artificial intelligence. However, labeled speech data are usually scarcer and more expensive for collection, compared to textual data. We propose →

end-to-end speech processing model latent synthesis textual data utilization framework automatic speech recognition spoken language understanding

发现论文，激发创造

SynthASR: 用于语音识别的合成数据解锁

本文提出了一个多阶段训练策略，包括数据增强，编码器冻结和参数正则化，并利用人工合成音频提高医疗用途语音识别（ASR）的识别性能，降低了生产数据的成本和依赖性。

Jun, 2021

减少语音训练数据需求以构建口语理解系统

本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法，可以有效地构建端到端的语音理解系统，并在句意和实体两个任务上得到了验证，最终得出该方法可以在仅使用文本数据进行训练的情况下，达到与使用全部语音数据进行训练的系统性能相近的结果。

Feb, 2022

利用语音合成训练端到端口语理解模型

文章提出了一种使用语音合成生成大规模合成数据集的方法，以克服要求领域内语音数据记录的问题，并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。

Oct, 2019

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

利用非成对文本数据训练端到端语音意图系统

本文探讨了使用 ASR 模型和 NLU 文本资源作为初始化及数据增广的方法，用以训练一个端到端的语音 - to - 意图系统，以减少数据稀疏问题。在实验中，作者通过改进后的 CTC-S2I 系统，使其与传统的级联式 SLU 系统具有相当的匹配性能。

Oct, 2020

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

半监督训练以提高端到端语音合成的数据效率

本文提出了一种半监督的训练框架来提高 Tacotron 数据效率，通过利用大量的公开文本和语音语料库的文本和声学知识，该框架使 Tacotron 能够使用不到半小时的配对训练数据生成可理解的语音。

Aug, 2018

基于预训练语音和语言模型的端到端语音识别整合

利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用 LLM 提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端 ASR 模型相媲美的性能。

Dec, 2023

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018