Sep, 2022

利用并行评分数据和反对称双子神经网络预测 TTS 音频刺激间的偏好

TL;DR本文提出基于反对称孪生神经网络的模型来自动预测主观听测试的结果,通过探索关注力和循环神经网络,我们在来自五年的 12 个 MUSHRA 评估数据上进行测试,该数据包含不同的 TTS 系统和说话人,并将听众的评分转换为值以反映一种刺激是否被评为优于另一种刺激,与现有的预测 MOS 得分的最新模型相比,我们的结果明显更好。