Jul, 2024

重新制作《分割与重新制作》:一个具备多语言支持的电影音频源分离数据集

TL;DR开发了DnR数据集的版本3,处理了与非对话声音站点中的语音内容、音量分布、母带处理和语言多样性相关的问题。通过Bandit模型的基准结果表明,使用多语言数据进行训练在模型中产生了显著的一般化能力,即使在数据可用性较低的语言中也如此。即使在数据可用性较高的语言中,多语言模型通常表现得与在单语种CASS数据集上训练的专用模型相当或更好。