ACLJun, 2024

具高效的分层变换器的生成式预训练语音语言模型

TL;DR我们介绍了一种用于有效语音语言建模的层次变压器的生成预训练语音变压器 (GPST),它将音频波形量化为两种不同类型的离散语音表示,并在层次变压器架构中进行集成,从而实现统一的单阶段生成过程并增强 Hi-Res 音频生成能力。通过以端到端无监督的方式在大型语音语料库上进行训练,GPST 可以生成具有多样说话人身份的句法一致的语音。给定一个简短的 3 秒提示,GPST 可以产生自然连贯的个性化语音,展示了上下文学习能力。此外,我们的方法可以通过结合多语义令牌和通用声学令牌轻松扩展到口语跨语言语音生成。实验结果表明,GPST 在词错误率、语音质量和说话人相似度方面明显优于现有语音语言模型。详情请参见 https://youngsheen.github.io/GPST/demo。