本文提出了一种新的语音链机制,该机制通过在语音链环路中集成说话人识别模型,并实现一次性说话人适应性,从而提高语音生成和自动语音识别的性能。
Mar, 2018
本文介绍了如何使用直通估计器全面地训练语音链以实现重建损失,并使用随机采样实现了 ASR 参数的更新并将其性能提高了 11%的相对 CER 降低率。
Oct, 2018
本文提出了一种基于 Transformer 模型的几乎无监督学习方法,结合 TTS 和 ASR 的双重特性,通过少量的配对数据和额外的未配对数据,实现了对语音和文本领域的语言建模,并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现,以及 11.7% 的 ASR 错误率。
May, 2019
本文介绍了 SpeeChain,一种开源的基于 Pytorch 的工具包,用于开发用于大规模使用的机器语音链。该工具包着重于 TTS 到 ASR 链这一核心组件,旨在通过未经口头语言的文本来增强 TTS 数据,从而增强机器语音链。研究者们通过实现易于使用的多 GPU 批级模型推断、多数据加载器批量生成和新颖的数据选择技术来构建大规模 TTS-to-ASR 链的高效流水线。本文首先解释了 TTS-to-ASR 链的总体流程及其各个步骤的困难之处。然后,研究者们对不同类型的未标记数据、数据过滤阈值、批级组成以及真实 - 合成数据比率进行了详细的剖析研究。最后,通过在 LibriSpeech 的 train_clean_460 上进行实验,证明了半监督学习机制下,TTS-to-ASR 极大地提高了 WER。
Jan, 2023
本文提出了一种新的半监督训练方法,该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失,利用未配对的语音和文本数据,相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。
Apr, 2019
本文研究了口语理解系统的端到端学习方法,能够直接从音频特征中推断语义意义,而不需要中间文本表示。研究表明,该模型能够获得合理好的结果,并能直接从音频特征中捕捉语义注意力。
Feb, 2018
本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展,进一步总结了相关资源(数据集、开源实现),并提出了未来的研究方向。
Jun, 2021
本文提出了一种方法,通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题,并扩展了注意力机制的解码器和神经音响模式的解码器,以实现错误率的降低。
Feb, 2022
本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2,以缓解高质量语音库的不足问题,并在模型训练中观察到模型收敛更快、结果中无杂音等优点。
Jun, 2019
利用预训练语音表示模型与大型语言模型(LLM)的集成,通过以语音表示作为语音提示,自动逐步生成文本标记,以利用 LLM 提供的广博知识,从而实现端到端的自动语音识别(ASR)模型,该模型还可结合推理优化和参数高效领域适应等关键技术,实现与现代端到端 ASR 模型相媲美的性能。
Dec, 2023