Nov, 2024
基于内容感知音色集成建模与流匹配的零样本语音转换
CTEFM-VC: Zero-Shot Voice Conversion Based on Content-Aware Timbre
Ensemble Modeling and Flow Matching
TL;DR本研究解决了零样本语音转换中实现说话人相似性和自然度的挑战。提出的CTEFM-VC框架通过内容感知音色集成建模和流匹配,优化了音色建模能力,结合了说话人验证嵌入,并利用交叉注意力模块联合处理语言与音色特征。实验表明,CTEFM-VC系统在说话人相似性和自然度上分别超越了现有最先进的语音转换方法18.5%和7.0%。