Nov, 2023

自定义数据增强用于低资源 ASR 的 Bark 和基于检索的语音转换

TL;DR本文提出了两种创新方法,用于为印地语等低资源语言构建定制的 Common Voice 数据集。第一种方法利用 Suno 开发的基于 Transformer 的文本到音频模型 Bark,结合 Meta 的 enCodec 和预训练的 HuBert 模型来增强 Bark 的性能。第二种方法采用检索式语音转换(RVC),并使用 Ozen 工具包进行数据准备。这两种方法为 ASR 技术的发展做出了贡献,并提供了有价值的见解,以解决构建低资源语言定制 Common Voice 数据集的挑战。此外,它们为实现高质量个性化语音生成提供了途径,适用于各种应用场景。