Apr, 2024

CoVoMix: 推进零样本语音生成以实现人类般的多方对话

TL;DR零样本文本朗读 (TTS) 建模的最新进展在生成高保真和多样化的语音方面取得了重大进展。然而,在实现人类自然性的语音中实现对话生成仍然是该领域的一个挑战。在这篇论文中,我们介绍了一种名为 CoVoMix 的新型模型,用于零样本、人类化、多发言人、多轮对话语音生成。CoVoMix 首先将对话文本转换为多个离散令牌流,每个令牌流代表单个发言人的语义信息。然后,将这些令牌流输入基于流匹配的声学模型,以生成混合的 mel 频谱图。最后,使用 HiFi-GAN 模型生成语音波形。此外,我们设计了一套全面的度量标准来衡量对话建模和生成的效果。我们的实验结果表明,CoVoMix 能够生成自然性和连贯性非常类似于人类的对话,还包括多个发言人参与多轮对话。这些在单个通道内生成的对话以流畅的语音过渡为特点,包括重叠的语音和适当的语言行为,如笑声。音频样本可在此 https URL 查看。