基于两两比较的 MOS 预测

Jun, 2023

MOSPC: MOS Prediction Based on Pairwise Comparison

Kexin Wang, Yunlong Zhao, Qianqian Dong, Tom Ko, Mingxuan Wang

TL;DR提出了基于配对比较的 MOS 预测框架，并利用 C-Mixup 算法增强其泛化性能，实验结果表明该框架在语音质量的排名准确性上优于当前基准，说明该框架对于提高语音质量排名的准确性具有改进作用。

Abstract

As a subjective metric to evaluate the quality of synthesized speech, Mean opinion score~(MOS) usually requires multiple annotators to score the same speech. Such an annotation approach requires a lot of manpower and is also time-consuming. mos prediction model for →

mean opinion score automatic evaluation mos prediction model speech quality c-mixup algorithm

发现论文，激发创造

改进基于自主学习的 MOS 预测网络

该研究通过对先前基于自监督学习的 MOS 预测模型进行数据、训练和后训练的特定改进，并采用多种技术评估其有效性，包括 wav2vec 2.0 模型、转移学习、不同的批处理方法和方法的量化等，实现自动预测 MOS 值。

Apr, 2022

话语 MOS 多任务学习与评分者偏差校正

本文提出了一种多任务框架来改进盲目 MOS 评估模型的性能，通过在训练中加入附加标签和数据，结合两个不连续的数据集来联合估算 MOS、混响时间和清晰度，并使用半监督框架来组合两个 MOS 数据集以解决评估者偏差。

Dec, 2022

MOSNet：基于深度学习的语音转换客观评估

本文提出了基于深度学习的评估模型 MOSNet，用于预测转换语音的人类评分，实验结果表明其预测得分与人类得分高度相关，因此可以用作减少昂贵的人类评分需求的计算评估器。

Apr, 2019

MOS 预测系统中语音表示的比较

本研究比较了自监督学习特征和谱特征的性能，并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库，发现 wav2vec 特征具有最佳的泛化能力，且结合特征组合表现最佳。

Jun, 2022

图像质量评估的感知恒定性约束的单一意见分值校准

本文提出了一种高效的方法，从单个意见分数（SOS）估计图像的平均意见分数（MOS），通过最大似然估计来表征 MOS。我们假设每个 SOS 是正态分布的观测样本，MOS 是其未知期望值，并考虑了成对图像的感知相关性以对 SOS 的似然建模。通过使用自监督骨干学习的质量感知表示，引入了可学习的相对质量度量来预测两个图像之间的 MOS 差异。然后，当前图像的最大似然估计 MOS 由另一个参考图像的估计 MOS 和它们的相对质量之和表示。通过反向传播和牛顿法交替优化相对质量度量参数和当前图像的估计 MOS。实验证明，当只有 SOS 可用时，该方法在校准有偏 SOS 方面效率高，并显著改善了 IQA 模型的学习。

Apr, 2024

使用韵律和语言特征探究基于内容感知的神经文本语音合成 MOS 预测

该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响，发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。

Nov, 2022

用合成语音训练识别器评估语音合成

论文提出了一种基于训练合成语音自动识别模型并评估其在真实语音上表现的评估技术，该指标与意见分数自然性和可懂性均呈现出强相关性。

Oct, 2023

自监督学习模型融合用于 MOS 预测

通过自学习和半监督学习等多种策略，提出了一个融合框架，其中七个预训练的自监督学习（SSL）模型参与了对合成语音 MOS 预测的精度的改进，特别是在 OOD sub-track 上获得了较大的提升。

Apr, 2022

语音表示的 MOS 预测评估

该研究评估了预测语音质量的特征提取模型，并提出了一种模型架构，用于比较有监督学习和自监督学习模型的嵌入和说话人验证模型的嵌入以预测指标 MOS；实验结果在 VCC2018 数据集和一个叫做 BRSpeechMOS 的巴西 - 葡萄牙语数据集中均表明，译为 “耳语模型” 在所有情境下都是适当的。

Jun, 2023

MOSRA: 联合均值意见分数和房间声学语音质量评估

本文介绍了一种非侵入式的多维度语音质量度量标准 MOSRA，可以预测房间声学参数，通过显式优化模型来学习这些参数，并同时改善 MOS 设备的泛化能力和盲预测房间声学的性能。

Apr, 2022