Mar, 2022

生成式口语对话语言建模

TL;DR本文介绍了 dGSLM,这是第一个无需文字或标签即能生成自然对话语音的 “textless” 模型,使用双塔变压器体系结构与跨注意力机制,经过 2000 小时的对话录音训练,能同时合成两个渠道的人类语音和语音附属特征,并展示其相对于基于文本的级联模型表现出更自然和流畅的交替发言。