BriefGPT.xyz
大模型
Ask
alpha
关键词
speaker timbre
搜索结果 - 2
SEF-VC:无说话人嵌入的零样本声音转换与交叉注意力
SEF-VC 是一种无需说话者嵌入的语音转换模型,通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色,并以非自回归的方式从 HuBERT 语义标记中重建波形,提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相
→
PDF
7 months ago
从离散语音表示合成个性化非语音声化
本文研究了非语言声音(NSV)建模作为文本转语音任务的可行性,评估了 HUBERT 语音单元在 NSVs 上的语音表现力和模型控制扩展演讲者音色的能力,还探讨了实现 NSV 建模的障碍,提出了五种未来研究改进方法。
PDF
2 years ago
Prev
Next