Mar, 2024

VoiceCraft: 野外零射语音编辑与文本转语音

TL;DRVoiceCraft 是一种令牌填充的神经编解码语言模型,不仅在语音编辑和零样本文本到语音的任务上取得了最先进的性能,而且在人工评估中,VoiceCraft 生成的编辑后语音与未编辑的语音几乎无法区分;我们的模型在包含不同口音、说话风格、录音条件、背景噪音和音乐的具有挑战性和真实性的数据集上表现出色,在语音编辑方面,我们引入了一个高质量、具有挑战性和真实性的数据集 RealEdit 作为评估。