表达能力与语音合成
现代对话系统在情感深度和人类交互特征方面存在重大局限。为弥补这一差距,我们设计了一种创新的语音合成流程,通过零 - shot 设置下的先进语言模型将人类情感和不流畅的特质引入生成的文本,从而更好地模拟人类语音模式,提供更直观自然的用户交互,产生几乎无法与真实人类交流区分的合成语音,使每次交互更具个人化和真实性。
Mar, 2024
通过离散语音单元级别的多语情感嵌入,以及有效地预测目标语言中的语音单元的音高和持续时间,本研究展示了一种能够有效捕捉跨不同语言的表达能力的新方法,通过客观和主观实验,结果显示本方法在提高传达情感和文化细微差别方面优于当前先进系统的表达能力转移。
Oct, 2023
通过声音的产生水平,我们以声韵学为基础,定义了一个由声门化、紧张度和共振三个维度构成的框架(GTR),来研究表达性语音合成,记录了一个包含 20 个中文句子以及 125 个不同 GTR 组合的高质量语音数据集(GTR-Voice),并通过自动分类和听力测试验证了该框架和 GTR 注释的精确可控性,并在两个经过微调的表达性 TTS 模型上展示了 GTR 维度上的精确控制能力,同时也开源了数据集和 TTS 模型。
Jun, 2024
本研究提出了一种新的任务设置,即什么样的语音是由特定环境所决定的,而非仅仅局限于情绪的预定义类别,为此,我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。
Nov, 2022
提出了一种基于 EE-TTS 的强调语音合成模型,该模型利用多层语言信息进行韵律信息的预测,并同时进行语音合成和语言信息输出,并经过实验证明其优于基线模型,并且在不同数据集上也具有较强的泛化能力。
May, 2023
我们介绍了 Expresso,这是一个高质量的表达性语音数据集,用于无文字语音合成,其中包括使用 26 种自发表达的风格渲染的朗读语音和即兴对话。我们通过一个表达性再合成基准来说明该数据集的挑战和潜力,其中的任务是在保持内容和风格的同时,使用低比特率单位对输入进行编码并在目标语音中重新合成。我们使用自动度量标准评估了不同自我监督离散编码器的合成质量,并探讨了质量、比特率和对说话人和风格的不变性之间的权衡。所有数据集、评估指标和基线模型均为开源。
Aug, 2023