BriefGPT.xyz
Ask
alpha
关键词
prosodic representations
搜索结果 - 3
通过提炼韵律和语言情感表达的语音情感识别
EmoDistill 是一个新颖的语音情感识别(SER)框架,利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中,我们的方法仅使用一系列语音信号执行单模态 SER,从而减少计算开销并避免运行时转录和韵律特征提取错
→
PDF
10 months ago
使用 AR 和基于流的先验网络预测音素级韵律潜变量用于表现力语音合成
本文比较了不同架构(prior architectures)在预测从 FVAE 模型中提取的音素级韵律表示方面的表现,并使用主观和客观指标证明了基于正规化流的先验网络可以在表现力方面产生更加生动的语音,并提出了一个动态 VAE 模型与基于流
→
PDF
2 years ago
通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成
本论文提出了一种表达性语音合成模型,该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性,如角色配音和说话风格,其中的潜在细节级别空间同时也捕捉更粗粒度的信息。
PDF
2 years ago
Prev
Next