MOS 预测系统中语音表示的比较

Jun, 2022

Comparison of Speech Representations for the MOS Prediction System

Aki Kunikoshi, Jaebok Kim, Wonsuk Jun, Kåre Sjölander

TL;DR本研究比较了自监督学习特征和谱特征的性能，并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库，发现 wav2vec 特征具有最佳的泛化能力，且结合特征组合表现最佳。

Abstract

Automatic methods to predict mean opinion score (MOS) of listeners have been researched to assure the quality of text-to-speech systems. Many previous studies focus on architectural advances (e.g. MBNet, LDNet, e

mean opinion score text-to-speech systems self-supervised learning wav2vec spectral features

发现论文，激发创造

语音表示的 MOS 预测评估

该研究评估了预测语音质量的特征提取模型，并提出了一种模型架构，用于比较有监督学习和自监督学习模型的嵌入和说话人验证模型的嵌入以预测指标 MOS；实验结果在 VCC2018 数据集和一个叫做 BRSpeechMOS 的巴西 - 葡萄牙语数据集中均表明，译为 “耳语模型” 在所有情境下都是适当的。

Jun, 2023

使用韵律和语言特征探究基于内容感知的神经文本语音合成 MOS 预测

该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响，发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。

Nov, 2022

改进基于自主学习的 MOS 预测网络

该研究通过对先前基于自监督学习的 MOS 预测模型进行数据、训练和后训练的特定改进，并采用多种技术评估其有效性，包括 wav2vec 2.0 模型、转移学习、不同的批处理方法和方法的量化等，实现自动预测 MOS 值。

Apr, 2022

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

关于使用自监督语音表示在自发语音合成中的研究

本研究探讨了自监督学习在 spontaneous TTS 和 MOS 预测中的适用性，并在实验中比较了 6 种不同的 SSL 及每种模型中的不同层次，旨在深入了解 SSL 的应用。

Jul, 2023

音乐中语音自我监督学习的有效性研究

通过使用两个音频方案 data2vec1.0 和 Hubert，我们训练了 $12$ 个自监督学习模型，并在 13 个不同的音乐信息检索任务中进行系统评估。我们的研究表明，使用音乐数据进行训练可以提高 MIR 任务性能，即使使用的是设计用于语音的模型，也能取得效果。但是，我们还发现现有的语音定向设计存在一些局限性，特别是在多声部信息建模方面。因此，我们为未来的音乐自监督学习策略和范式提供了实证建议。

Jul, 2023

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024

同步还是顺序训练？多任务自监督学习系统中语音表示如何协作

本文研究了基于 wav2vec 2.0 的自我监督学习和基于 transformer 的视觉接地语音的联合优化作为多任务学习系统，发现先进行 wav2vec 2.0 的串行训练，再进行 VGS 可以提高音频 - 视觉检索的性能，但是并行 SSL-VGS 培训可以降低优化标准之间切换时遗忘的影响。VGS 机制学习到的音位表示可能会比通过 SSL 学习到的音位表示更好地概括跨数据集。

Jun, 2023

自监督学习模型融合用于 MOS 预测

通过自学习和半监督学习等多种策略，提出了一个融合框架，其中七个预训练的自监督学习（SSL）模型参与了对合成语音 MOS 预测的精度的改进，特别是在 OOD sub-track 上获得了较大的提升。

Apr, 2022

理解自监督模型作为跨语言特征提取器的量化方法

通过对英文自监督学习模型在跨语言环境中提取的特征进行研究，我们提出了一种新的度量标准来预测特征表示的质量。使用自动语音识别作为下游任务，我们分析了模型大小、训练目标和模型架构对一组拓扑多样的语料库中模型作为特征提取器的性能的影响。我们开发了一种新的度量标准，即 Phonetic-Syntax Ratio (PSR)，通过深度广义典型相关分析来衡量提取表示中的音标和合成信息。结果表明，wav2vec2.0 目标中的对比损失有助于更有效的跨语言特征提取。PSR 分数与自动语音识别性能呈正相关，表明单语自监督学习模型提取的音标信息可以用于跨语言设置中的下游任务。提出的度量标准是表示质量的有效指标，可用于模型选择。

Nov, 2023