Jun, 2024
SVSNet +:使用语音基础模型的表示增强说话人声音相似性评估模型
SVSNet+: Enhancing Speaker Voice Similarity Assessment Models with Representations from Speech Foundation Models
Chun Yin, Tai-Shih Chi, Yu Tsao, Hsin-Min Wang
TL;DR本研究提出了 SVSNet + 模型,该模型整合了预训练的 SFMs 模型来改善对说话者声音相似性的评估性能,实验证明使用 WavLM 表征的 SVSNet + 相比基线模型有显著改进,将 WavLM 替换为其他 SFMs 时,SVSNet + 仍优于基线模型且表现出强大的泛化能力。