Jan, 2023

SpeeChain:用于大规模机器语音链的语音工具包

TL;DR本文介绍了 SpeeChain,一种开源的基于 Pytorch 的工具包,用于开发用于大规模使用的机器语音链。该工具包着重于 TTS 到 ASR 链这一核心组件,旨在通过未经口头语言的文本来增强 TTS 数据,从而增强机器语音链。研究者们通过实现易于使用的多 GPU 批级模型推断、多数据加载器批量生成和新颖的数据选择技术来构建大规模 TTS-to-ASR 链的高效流水线。本文首先解释了 TTS-to-ASR 链的总体流程及其各个步骤的困难之处。然后,研究者们对不同类型的未标记数据、数据过滤阈值、批级组成以及真实-合成数据比率进行了详细的剖析研究。最后,通过在 LibriSpeech 的 train_clean_460 上进行实验,证明了半监督学习机制下,TTS-to-ASR 极大地提高了 WER。