Jun, 2024

通过高效的微调学习语音生成的细粒度可控性

TL;DR提出了 Voicebox Adapter 方法,通过交叉注意力模块将细粒度条件整合到预训练的 Voicebox 语音生成模型中,探索了各种高效的微调方法,实验证明,采用具有偏差微调配置的 LoRA 方法性能最佳,提高了可控性同时保持了语音质量,表明 Voicebox Adapter 在三种细粒度条件生成任务中具有效力和资源效率,并且通过后续实验证明了在不同数据设置中 Voicebox Adapter 的鲁棒性。