基于两两比较的 MOS 预测
该研究通过对先前基于自监督学习的 MOS 预测模型进行数据、训练和后训练的特定改进,并采用多种技术评估其有效性,包括 wav2vec 2.0 模型、转移学习、不同的批处理方法和方法的量化等,实现自动预测 MOS 值。
Apr, 2022
本文提出了一种多任务框架来改进盲目 MOS 评估模型的性能,通过在训练中加入附加标签和数据,结合两个不连续的数据集来联合估算 MOS、混响时间和清晰度,并使用半监督框架来组合两个 MOS 数据集以解决评估者偏差。
Dec, 2022
本文提出了基于深度学习的评估模型 MOSNet,用于预测转换语音的人类评分,实验结果表明其预测得分与人类得分高度相关,因此可以用作减少昂贵的人类评分需求的计算评估器。
Apr, 2019
本研究比较了自监督学习特征和谱特征的性能,并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库,发现 wav2vec 特征具有最佳的泛化能力,且结合特征组合表现最佳。
Jun, 2022
本文提出了一种高效的方法,从单个意见分数(SOS)估计图像的平均意见分数(MOS),通过最大似然估计来表征 MOS。我们假设每个 SOS 是正态分布的观测样本,MOS 是其未知期望值,并考虑了成对图像的感知相关性以对 SOS 的似然建模。通过使用自监督骨干学习的质量感知表示,引入了可学习的相对质量度量来预测两个图像之间的 MOS 差异。然后,当前图像的最大似然估计 MOS 由另一个参考图像的估计 MOS 和它们的相对质量之和表示。通过反向传播和牛顿法交替优化相对质量度量参数和当前图像的估计 MOS。实验证明,当只有 SOS 可用时,该方法在校准有偏 SOS 方面效率高,并显著改善了 IQA 模型的学习。
Apr, 2024
该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响,发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。
Nov, 2022
通过自学习和半监督学习等多种策略,提出了一个融合框架,其中七个预训练的自监督学习(SSL)模型参与了对合成语音 MOS 预测的精度的改进,特别是在 OOD sub-track 上获得了较大的提升。
Apr, 2022
该研究评估了预测语音质量的特征提取模型,并提出了一种模型架构,用于比较有监督学习和自监督学习模型的嵌入和说话人验证模型的嵌入以预测指标 MOS;实验结果在 VCC2018 数据集和一个叫做 BRSpeechMOS 的巴西 - 葡萄牙语数据集中均表明,译为 “耳语模型” 在所有情境下都是适当的。
Jun, 2023
本文介绍了一种非侵入式的多维度语音质量度量标准 MOSRA,可以预测房间声学参数,通过显式优化模型来学习这些参数,并同时改善 MOS 设备的泛化能力和盲预测房间声学的性能。
Apr, 2022