M2-CTTS: 端到端的多尺度、多模态会话文本到语音合成

May, 2023

M2-CTTS: 端到端的多尺度、多模态会话文本到语音合成

M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis

Jinlong Xue, Yayue Deng, Fengping Wang, Ya Li, Yingming Gao...

TL;DR提出了一种多尺度，多模态会话文本到语音系统（M2-CTTS），用于综合利用历史会话并增强韵律表达，通过考虑文本和声学因素的粗粒度和细粒度建模，并混合细粒度上下文信息及声学特征，实现了更好的韵律表现和自然度。

Abstract

conversational text-to-speech (TTS) aims to synthesize speech with proper prosody of reply based on the historical conversation. However, it is still a challenge to comprehensively model the conversation, and a majority of conversational TTS systems only focus on extracting global info

conversational text-to-speech prosody modeling fine-grained information multi-modal system acoustic feature

发现论文，激发创造

MM-TTS: 多模态、情绪感应文本转语音综合的统一框架

Multimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.

Apr, 2024

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

简单有效的多句 TTS 系统，具有表达和连贯的韵律

本文针对长文本合成语音的特殊困难，通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展，改进了合成语音的韵律，其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估，得出了一种较强的合成语音系统，其中包括所有改进扩展，相对于同类竞品在语音自然度方面表现出显著的提升。

Jun, 2022

FCTalker：细粒度和粗粒度上下文建模用于生动的对话语音合成

FCTalker 是一种基于 fine and coarse-grained encoder 的语音合成模型，使用了基于 BERT 的对话编码器来建立话语历史与语音合成之间的单词级别依赖关系，以提高合成语音的表现力和适应性。

Oct, 2022

面向并行 TTS 前端建模的先验不可知多尺度对比文本 - 音频预训练

在本文中，我们提出了一种名为 TAP-FM 的新型 TTS 前端预测流水线，它包括 Multi-scale Contrastive Text-audio Pre-training（MC-TAP）协议和并行化的 TTS 前端模型，通过在无监督学习中采用多粒度对比预训练来获得更丰富的见解，以及执行 TN、PD 和 PBP 预测任务，实验证明了我们提出方法的卓越性能。

Apr, 2024

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

CM-TTS：通过加权采样器和一致性模型提高实时文本合成效率

通过引入连续时间扩散模型，CM-TTS 在不需要对抗训练或预训练模型依赖的情况下，在较少的步骤中实现了高质量的语音合成，通过动态概率设计加权采样器来确保整个训练过程的无偏学习。实验证实了 CM-TTS 相对于现有的单步语音合成系统的卓越性能，代表了该领域的重大进展。

Mar, 2024

ParaTTS: 基于段落的语音合成中学习跨句子的语言和韵律信息

本文提出了一种基于跨句嵌入结构的 TTS 模型，包含语言学信息，韵律信息和位置信息，并在女性普通话语音书籍语料库上进行了训练，结果表明该模型能够生成自然、优质的段落朗读文本，且在主观和客观测试中都表现优于基于句子的模型。

Sep, 2022

基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

通过将 Qformer 应用于多模态上下文信息，结合预训练的大型语言模型和音频编码器，我们提出了一种适应多种上下文 TTS 场景的全新语音合成模型，通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明，我们的方法在各种上下文 TTS 场景中优于基准模型。

Jun, 2024

Tacotron: 面向端到端的语音合成

该研究提出了 Tacotron，一种端到端的生成式文本转语音模型，通过多个关键技术在序列到序列的框架下进行良好性能表现，同时模型以帧为单位直接生成语音，表现自然度和速度方面优于传统的参数化系统。

Mar, 2017