Jan, 2023

MooseNet: 一种可训练的合成语音指标,使用 PLDA 后端

TL;DR使用 MooseNet,该研究提出了一种可训练的语音度量方法,以预测听众的平均意见分数(MOS)。该研究通过易于使用的建模技术,对挑战基线进行了改进,并增加了适用于更大的自监督学习(SSL)模型。提出了两种模型,第一种是神经网络(NN),第二种是基于第一种 NN 模型顶层的 PLDA 生成模型,可以提高 NN 模型的表现。由两种模型组成的集成在所有系统和话语级别的指标上均获得了前 3 或前 4 名的 VoiceMOS 排行榜。