ACLSep, 2021

基于韵律的无文本生成式语音语言建模

TL;DR本文提出了一种基于多流 Transformer 和 HiFi-GAN 的韵律感知生成口语语言模型 (pGSLM),利用韵律为生成式预训练提供了更好的理解和生成能力。实验结果表明,该模型可以显著提高韵律和内容建模,并能够生成自然、有意义和连贯的语音。