TL;DR本文提出了一种多任务框架来改进盲目 MOS 评估模型的性能,通过在训练中加入附加标签和数据,结合两个不连续的数据集来联合估算 MOS、混响时间和清晰度,并使用半监督框架来组合两个 MOS 数据集以解决评估者偏差。
Abstract
perceptual speech quality is an important performance metric for
teleconferencing applications. The mean opinion score (MOS) is standardized for
the perceptual evaluation of speech quality and is obtained by aski
本文提出了一种高效的方法,从单个意见分数(SOS)估计图像的平均意见分数(MOS),通过最大似然估计来表征 MOS。我们假设每个 SOS 是正态分布的观测样本,MOS 是其未知期望值,并考虑了成对图像的感知相关性以对 SOS 的似然建模。通过使用自监督骨干学习的质量感知表示,引入了可学习的相对质量度量来预测两个图像之间的 MOS 差异。然后,当前图像的最大似然估计 MOS 由另一个参考图像的估计 MOS 和它们的相对质量之和表示。通过反向传播和牛顿法交替优化相对质量度量参数和当前图像的估计 MOS。实验证明,当只有 SOS 可用时,该方法在校准有偏 SOS 方面效率高,并显著改善了 IQA 模型的学习。