利用并行评分数据和反对称双子神经网络预测 TTS 音频刺激间的偏好

Sep, 2022

利用并行评分数据和反对称双子神经网络预测 TTS 音频刺激间的偏好

Predicting pairwise preferences between TTS audio stimuli using parallel ratings data and anti-symmetric twin neural networks

PDF

Cassia Valentini-Botinhao, Manuel Sam Ribeiro, Oliver Watts, Korin Richmond, Gustav Eje Henter

TL;DR本文提出基于反对称孪生神经网络的模型来自动预测主观听测试的结果，通过探索关注力和循环神经网络，我们在来自五年的 12 个 MUSHRA 评估数据上进行测试，该数据包含不同的 TTS 系统和说话人，并将听众的评分转换为值以反映一种刺激是否被评为优于另一种刺激，与现有的预测 MOS 得分的最新模型相比，我们的结果明显更好。

Abstract

Automatically predicting the outcome of subjective listening tests is a challenging task. Ratings may vary from person to person even if preferences are consistent across listeners. While previous work has focused on predicting listeners' ratings (mean opinion scores) of individual sti

subjective listening tests anti-symmetric twin neural networks attention and recurrent neural nets mushra evaluations tts systems

发现论文，激发创造

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

利用自监督表示的鹦鹉 TTS：文本转语音合成

提出一种名为 ParrotTTS 的文本转语音建模的替代方法，该方法基于自监督学习方法。ParrotTTS 采用两步方法，在无标签数据上训练语音到语音模型，然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数，但在转录对和讲话者自适应方面明显优于传统 TTS 模型，并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。

Mar, 2023

基于在线学习的众包环境下基于偏好的主观评估的自动设计优化

通过在线学习算法，我们提出了一种自动优化的方法来解决基于偏好的主观评估在众包环境中大规模测试时的配对组合选择和评估数量的分配问题。实验结果表明，我们的方法成功地通过减少配对组合数量并为每个配对分配最佳的评估数量来优化测试，同时不损害评估准确性和预算分配的浪费。

Mar, 2024

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

利用人类反馈提升零样本语音合成

在此研究中，我们提出了一种将主观人类评估整合到 TTS 训练过程中的新方法，名为不确定性感知优化（UNO），通过考虑主观人类语音感知和评估中的固有变异性来最大化语音生成的效用，实验证明 UNO 极大地提升了 TTS 模型在 MOS、词错误率和说话人相似性方面的零样本性能，同时还展示了 UNO 在情感 TTS 中无缝、灵活地适应所需说话风格的显著能力。

Jun, 2024

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

多假设 RNN-T 损失函数用于神经传输器的无监督微调和自学习

本文提出了一种新的方法，利用未标记的语音数据对递归神经网络转录器端对端自动语音识别系统进行无监督的微调和自我训练，其中包括引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响，并在 Librispeech，Wall Street Journal（WSJ），Aurora-4 和 CHiME-4 数据集上进行实验，显著提高了系统性能。

Jul, 2022

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

主观性实验中主体行为的简单模型

本文提出了一个简单的模型来解决主题不准确的困扰，并通过比较真实数据和合成模拟来证明其价值和优越性。

Apr, 2020