基于评审的不同文字转语音技术研究

Dec, 2023

基于评审的不同文字转语音技术研究

A review-based study on different Text-to-Speech technologies

Md. Jalal Uddin Chowdhury, Ashab Hussan

TL;DR这篇研究论文以综述为基础，对各种文字转语音（TTS）技术进行了全面研究。研究比较了诸如串联 TTS、共振合成 TTS 和统计参数 TTS 等不同的 TTS 技术在语音自然度、系统复杂程度和适用性等方面的优势和局限性，并探索了神经 TTS 和混合 TTS 等最新进展。该研究的结果对于希望了解不同 TTS 技术及其适用性的研究人员、开发人员和用户具有重要价值。

Abstract

This research paper presents a comprehensive review-based study on various text-to-speech (TTS) technologies. TTS technology is an important aspect of human-computer interaction, enabling machines to convert written text into audible speech. The paper examines the different

text-to-speech tts technologies concatenative tts formant synthesis tts statistical parametric tts

发现论文，激发创造

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

高质量文本转语音数据集生成的自动化端到端开源软件

通过集成特定语言的音位分布、自动化录制过程、自动化和人机协同质量保证、以及记录的处理以符合指定格式，本文引入了一种端到端工具以生成文本到语音 (TTS) 模型的高质量数据集，以满足对高质量数据的重要需求，从而简化 TTS 模型的数据集创建过程，促进基于语音的技术的发展。

Feb, 2024

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

面向下一个十亿用户构建文本转语音系统

本研究评估了科威特琴主义和印度Ａryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此，我们确定了单语模型与 FastPitch 和 HiFi-GAN V1，联合训练男性和女性说话者表现最佳。在这个设置下，我们为 13 种语言训练和评估 TTS 模型，并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。

Nov, 2022

利用自监督表示的鹦鹉 TTS：文本转语音合成

提出一种名为 ParrotTTS 的文本转语音建模的替代方法，该方法基于自监督学习方法。ParrotTTS 采用两步方法，在无标签数据上训练语音到语音模型，然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数，但在转录对和讲话者自适应方面明显优于传统 TTS 模型，并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。

Mar, 2023

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

语音感知对话系统技术挑战赛（DSTC11）

本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模，以解决自动语音识别系统所引入的误差，并针对多轮对话建立了一个公共语料库，研究各种形式的语音输出的性能差距，并给出了初步分析。

Dec, 2022

视觉感知的文本转语音

本文提出了一种新的视觉感知文本转语音（VA-TTS）任务，它可以根据面对面交流中听者的语音和面部表情条件语音的生成，实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。

Jun, 2023