基于评审的不同文字转语音技术研究
通过集成特定语言的音位分布、自动化录制过程、自动化和人机协同质量保证、以及记录的处理以符合指定格式,本文引入了一种端到端工具以生成文本到语音 (TTS) 模型的高质量数据集,以满足对高质量数据的重要需求,从而简化 TTS 模型的数据集创建过程,促进基于语音的技术的发展。
Feb, 2024
本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。
May, 2022
本研究提出了一种新的任务设置,即什么样的语音是由特定环境所决定的,而非仅仅局限于情绪的预定义类别,为此,我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。
Nov, 2022
该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统,可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能,并开展了对文本单元和声码器影响的研究。
Mar, 2022
本研究评估了科威特琴主义和印度Aryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此,我们确定了单语模型与 FastPitch 和 HiFi-GAN V1,联合训练男性和女性说话者表现最佳。在这个设置下,我们为 13 种语言训练和评估 TTS 模型,并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。
Nov, 2022
提出一种名为 ParrotTTS 的文本转语音建模的替代方法,该方法基于自监督学习方法。ParrotTTS 采用两步方法,在无标签数据上训练语音到语音模型,然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数,但在转录对和讲话者自适应方面明显优于传统 TTS 模型,并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。
Mar, 2023
使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标上显示出优异性。
Feb, 2023
本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模,以解决自动语音识别系统所引入的误差,并针对多轮对话建立了一个公共语料库,研究各种形式的语音输出的性能差距,并给出了初步分析。
Dec, 2022
本文提出了一种新的视觉感知文本转语音(VA-TTS)任务,它可以根据面对面交流中听者的语音和面部表情条件语音的生成,实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。
Jun, 2023