儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

Mar, 2022

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

A Text-to-Speech Pipeline, Evaluation Methodology, and Initial Fine-Tuning Results for Child Speech Synthesis

Rishabh Jain, Mariam Yiwere, Dan Bigioi, Peter Corcoran, Horia Cucu

TL;DR本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Abstract

Speech synthesis has come a long way as current text-to-speech (TTS) models can now generate natural human-sounding speech. However, most of the TTS research focuses on using adult speech data and there has been very limited work done on child speech synthesis. This study developed and

child speech synthesis neural tts models training pipeline mos evaluation asr model

发现论文，激发创造

基于 Fastpitch 的转移学习改进儿童文本转语音合成

本研究通过采用迁移学习和 Fastpitch 文本到语音模型，提出了一种生成高质量合成儿童语音的新方法，并通过使用此方法生成的样本进行客观评估和唤醒词错误率验证，展示了真实和合成儿童声音之间的显著相关性。

Nov, 2023

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

基于深度学习的合成语音自然度评估

本文提出了一种新的客观预测合成语音自然度的模型，采用 CNN-LSTM 网络逐端训练，独立于语言，能用于评估文本转语音或语音转换系统的效果，通过在多个数据集上测试证明模型的可靠性。

Apr, 2021

利用人类反馈提升零样本语音合成

在此研究中，我们提出了一种将主观人类评估整合到 TTS 训练过程中的新方法，名为不确定性感知优化（UNO），通过考虑主观人类语音感知和评估中的固有变异性来最大化语音生成的效用，实验证明 UNO 极大地提升了 TTS 模型在 MOS、词错误率和说话人相似性方面的零样本性能，同时还展示了 UNO 在情感 TTS 中无缝、灵活地适应所需说话风格的显著能力。

Jun, 2024

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

EfficientSpeech: 一个本地化文本到语音模型

本文提出了一种名为 EfficientSpeech 的神经文本转语音模型，它可以在资源受限且没有互联网访问的边缘设备上使用 ARM CPU 实时合成语音，并且相比现代紧凑型模型，参数和计算量仅为 1％，可实现平均 104.3 倍的实时因素，人类评估显示与 FastSpeech2 相比，音频质量仅略有下降。

May, 2023

通过微调自监督成人语音表示提高儿童的语音识别能力

本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型，分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响，结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至 46.08% 和 45.53% 并且实现绝对改进 14.70% 和 31.10%，同时通过仅需要 5 个小时的儿童语音数据，也可以超越在 960 个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。

Nov, 2022