端到端 TTS 系统中对说话者无关语调断句模型的研究

Apr, 2023

端到端 TTS 系统中对说话者无关语调断句模型的研究

An investigation of speaker independent phrase break models in End-to-End TTS systems

Anandaswarup Vadapalli

TL;DR该论文研究了在端到端 TTS 系统的上下文中的短语断句预测问题，并评估了在儿童故事合成中使用预测短语断句的实用性和有效性，结果表明使用训练好的短语模型预测短语断句的故事比直接合成的故事更受听众理解。

Abstract

This paper presents our work on phrase break prediction in the context of end-to-end tts systems, motivated by the following questions: (i) Is there any utility in incorporating an explicit →

phrase break prediction end-to-end tts phrasing model childrens story synthesis listener comprehension

发现论文，激发创造

利用预训练语言模型评估 ESL 演讲的词组断点

本文介绍了一种通过预训练语言模型来评估 ESL 学习者语音中短语断点的方法，该方法首先将语音转换为标记序列，再利用预先训练的模型进行分析，同时通过预先训练和微调管道来优化整体和细分表现，有效减少了对有标记训练数据的依赖，并提高了性能。

Oct, 2022

使用预训练语言模型和大型语言模型评估 ESL 语音的短语断点

本文介绍了使用预训练语言模型（PLMs）和大型语言模型（LLMs）评估 ESL 学习者语音短语分割的方法，并展示了通过使用 PLMs 减少标注数据依赖并提高性能，以及验证 ChatGPT 在这个领域有进一步提高的潜力。

Jun, 2023

多语言语言模型的跨语言短语断点预测迁移学习

本文采用跨语言迁移学习的方式，使用预训练的多语言语言模型，在少量标注数据的情况下，研究了短语断点预测的效果，发现跨语言迁移可以是一种有效的方法，尤其是在低资源语言中，因此建议使用跨语言迁移来改善语音合成前端。

Jun, 2023

使用预训练语言模型的时长感知暂停插入多说话人文本转语音

本文提出一种基于预训练语言模型的更加高效的暂停插入框架，运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点，并使用持续时间感知的暂停插入以获得更自然的多人演讲，测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。

Feb, 2023

具有上下文短语预测网络的情境化端到端语音识别

本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络，该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失，以辅助训练文本化模型，改善了各种端到端语音识别模型的单词错误率（WER）。

May, 2023

情感感知的韵律短语化对表达性文本转语音

为了提高端到端文本转语音（TTS）的自然程度和可理解性，本文提出了一种情感感知的韵律短语模型（EmoPP），准确挖掘话语的情感线索并预测适当的短语断点，并通过客观和主观评估证明 EmoPP 在情感表达能力方面优于所有基线模型，取得了显著的性能。音频样本和代码可在 https://github.com/AI-S2-Lab/EmoPP 获取。

Sep, 2023

通过分段、注意力和预测未来来提高神经语言模型的性能

本研究提出了一种基于无监督学习的方法来对齐上下文和下一句子，它可以自动识别短语并生成词组内嵌入，实现了对语言模型进行了有效优化，模型在 Wiketext-103 数据集上达到 17.4 的最佳性能表现。

Jun, 2019

基于预训练语言模型和基于停顿的韵律建模的自然语音合成 (PauseSpeech)

本文提出了一个基于已预训练语言模型和基于停顿的语调模型的语音合成系统 PuaseSpeech，其使用编码器和预测器来实现词语分组和停顿的建模，实验结果表明 PuaseSpeech 在自然度方面优于先前的模型。

Jun, 2023

简单有效的多句 TTS 系统，具有表达和连贯的韵律

本文针对长文本合成语音的特殊困难，通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展，改进了合成语音的韵律，其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估，得出了一种较强的合成语音系统，其中包括所有改进扩展，相对于同类竞品在语音自然度方面表现出显著的提升。

Jun, 2022

利用语音合成训练端到端口语理解模型

文章提出了一种使用语音合成生成大规模合成数据集的方法，以克服要求领域内语音数据记录的问题，并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。

Oct, 2019