优化韩国语 TTS 停顿生成的句法和声学线索相互作用

COLINGApr, 2024

优化韩国语 TTS 停顿生成的句法和声学线索相互作用

Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation

Yejin Jeon, Yunsu Kim, Gary Geunbae Lee

TL;DR通过综合建模句法和声学线索，提出了一种能够生成自然语音的新框架，有效解决高资源语言和韩语中的停顿错误问题。

Abstract

Contemporary neural speech synthesis models have indeed demonstrated remarkable proficiency in synthetic speech generation as they have attained a level of quality comparable to that of human-produced speech. Nev

neural speech synthesis quality high-resource languages pausing errors natural speech

发现论文，激发创造

基于预训练语言模型和基于停顿的韵律建模的自然语音合成 (PauseSpeech)

本文提出了一个基于已预训练语言模型和基于停顿的语调模型的语音合成系统 PuaseSpeech，其使用编码器和预测器来实现词语分组和停顿的建模，实验结果表明 PuaseSpeech 在自然度方面优于先前的模型。

Jun, 2023

使用预训练语言模型的时长感知暂停插入多说话人文本转语音

本文提出一种基于预训练语言模型的更加高效的暂停插入框架，运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点，并使用持续时间感知的暂停插入以获得更自然的多人演讲，测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。

Feb, 2023

融合语言学知识的实证研究：个性化自然语音合成中的充填式停顿

本研究旨在探讨基于语言知识的个性化自发性语音合成，着重针对充满话语不流畅的填充停顿进行个性化处理，通过开发一个基于多说话者语料库训练的非个性化外部填充停顿预测器的语音合成方法进行比较评估，证明了填充停顿时态与词汇的交错对自然度和个性化的必要性。

Oct, 2022

言之有物：使用暂停标记训练语言模型

使用一个可学习的 “暂停” 标记和推迟提取模型输出的方法，我们在语言模型上执行训练和推理，并观察到模型在预训练和微调过程中实现了推理时间延迟的增益，这对各种推理、问答和基本理解任务都有积极的影响，进一步将延迟下一个标记预测的方法应用于各种应用场景可能引发更多概念性和实践性的未来研究问题。

Oct, 2023

ParaTTS: 基于段落的语音合成中学习跨句子的语言和韵律信息

本文提出了一种基于跨句嵌入结构的 TTS 模型，包含语言学信息，韵律信息和位置信息，并在女性普通话语音书籍语料库上进行了训练，结果表明该模型能够生成自然、优质的段落朗读文本，且在主观和客观测试中都表现优于基于句子的模型。

Sep, 2022

利用停顿信息提高实体识别的准确性

本文阐述语言学中名词周围的语音停顿可以用于改善机器学习语言理解任务；作者的提出的一种新颖的语义嵌入模型能够用于增强浅层实体分析，结果显示此模型相比传统方法能够将误差率提高 8%。

Sep, 2021

简单有效的多句 TTS 系统，具有表达和连贯的韵律

本文针对长文本合成语音的特殊困难，通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展，改进了合成语音的韵律，其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估，得出了一种较强的合成语音系统，其中包括所有改进扩展，相对于同类竞品在语音自然度方面表现出显著的提升。

Jun, 2022

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

语音解析：一种神经方法用于集成词汇和声学 - 韵律信息

本文中，我们提出了一个模型，该模型使用卷积神经网络对能量和音高轨迹进行耦合，并使用基于注意力机制的循环神经网络，接受文本和韵律特征，并结合转录文本和声学 - 韵律特征，以自动解析口语话语，并发现不同类型的声学 - 韵律特征都有助于解析，对比一个强文本基线，该模型取得了显著的改进。错误分析表明，声学 - 韵律特征的主要优点在于有误流畅度的句子，附加决策得到最大的改进，文本转录错误掩盖了音韵的改进。

Apr, 2017