MooseNet: 一种可训练的合成语音指标，使用 PLDA 后端

Jan, 2023

MooseNet: 一种可训练的合成语音指标，使用 PLDA 后端

MooseNet: A trainable metric for synthesized speech with plda backend

Ondřej Plátek, Ondřej Dušek

TL;DR使用 MooseNet，该研究提出了一种可训练的语音度量方法，以预测听众的平均意见分数（MOS）。该研究通过易于使用的建模技术，对挑战基线进行了改进，并增加了适用于更大的自监督学习（SSL）模型。提出了两种模型，第一种是神经网络（NN），第二种是基于第一种 NN 模型顶层的 PLDA 生成模型，可以提高 NN 模型的表现。由两种模型组成的集成在所有系统和话语级别的指标上均获得了前 3 或前 4 名的 VoiceMOS 排行榜。

Abstract

We present moosenet, a trainable speech metric that predicts listeners' Mean Opinion Score (MOS). We report improvements to the challenge baselines using easy-to-use modeling techniques, which also scales for lar

moosenet speech metric self-supervised learning neural network plda generative model

发现论文，激发创造

MOSNet：基于深度学习的语音转换客观评估

本文提出了基于深度学习的评估模型 MOSNet，用于预测转换语音的人类评分，实验结果表明其预测得分与人类得分高度相关，因此可以用作减少昂贵的人类评分需求的计算评估器。

Apr, 2019

改进基于自主学习的 MOS 预测网络

该研究通过对先前基于自监督学习的 MOS 预测模型进行数据、训练和后训练的特定改进，并采用多种技术评估其有效性，包括 wav2vec 2.0 模型、转移学习、不同的批处理方法和方法的量化等，实现自动预测 MOS 值。

Apr, 2022

多任务伪标签学习用于非侵入式语音质量评估模型

该研究介绍了多任务伪标签（MPL）学习在非侵入性语音质量评估模型中的应用，通过两个阶段获得伪标签分数和进行多任务学习，实验证明了 MPL 相较于从零开始训练模型和使用知识传递机制的优势，并验证了 Huber 损失函数在提高 MTQ-Net 预测模型的能力方面的益处，最终 MTQ-Net 采用 MPL 方法展示了较其他基于 SSL 的语音评估模型更高的整体预测能力。

Aug, 2023

使用韵律和语言特征探究基于内容感知的神经文本语音合成 MOS 预测

该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响，发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。

Nov, 2022

基于扩散概率模型的语音增强度量化方法

研究提出了一种基于度量导向的语音增强方法 (MOSE)，通过创新的 actor-critic 框架，将评估度量视为后验奖励，以指导反向过程到度量增加方向，从而提高了性能。

Feb, 2023

自监督学习模型融合用于 MOS 预测

通过自学习和半监督学习等多种策略，提出了一个融合框架，其中七个预训练的自监督学习（SSL）模型参与了对合成语音 MOS 预测的精度的改进，特别是在 OOD sub-track 上获得了较大的提升。

Apr, 2022

使用 LPCNet 的高质量轻量化和可适应的语音合成技术

本研究提出了一种轻量级的适应性神经 TTS 系统，采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器，性能接近自然语音合成，同时在标准 CPU 上实时性能比真实速度快 3 倍，系统的模块化设置使得可适应新的语音，只需要少量的数据，在大量实验中展示了系统的高质量和适应性，提高了 0.12 的质量差距和 3% 的相似性差距，可适应未见的声音和性别的合成。

May, 2019

SOMOS：三星开放式 MOS 数据集用于神经文本转语音合成的评估

该论文介绍了一个大型的神经文本转语音（TTS）数据集 SOMOS，该数据集可以用来训练自动 MOS 预测系统，以评估现代合成器。该数据集由 20k 个来自 200 种 TTS 系统的合成语音组成，提供平衡和充足的领域和长度覆盖率，并在三个英文 Amazon Mechanical Turk 地点上收集 MOS 自然度评估，同时分享了可靠的众包注释实践。研究者提供了 SOTA MOS 预测模型在 SOMOS 数据集上的基线结果，并显示了这些模型在评估 TTS 语音时面临的限制。

Apr, 2022

MOS 预测系统中语音表示的比较

本研究比较了自监督学习特征和谱特征的性能，并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库，发现 wav2vec 特征具有最佳的泛化能力，且结合特征组合表现最佳。

Jun, 2022

基于深度学习的合成语音自然度评估

本文提出了一种新的客观预测合成语音自然度的模型，采用 CNN-LSTM 网络逐端训练，独立于语言，能用于评估文本转语音或语音转换系统的效果，通过在多个数据集上测试证明模型的可靠性。

Apr, 2021