端到端 TTS 系统中对说话者无关语调断句模型的研究
本文介绍了一种通过预训练语言模型来评估 ESL 学习者语音中短语断点的方法,该方法首先将语音转换为标记序列,再利用预先训练的模型进行分析,同时通过预先训练和微调管道来优化整体和细分表现,有效减少了对有标记训练数据的依赖,并提高了性能。
Oct, 2022
本文介绍了使用预训练语言模型(PLMs)和大型语言模型(LLMs)评估 ESL 学习者语音短语分割的方法,并展示了通过使用 PLMs 减少标注数据依赖并提高性能,以及验证 ChatGPT 在这个领域有进一步提高的潜力。
Jun, 2023
本文采用跨语言迁移学习的方式,使用预训练的多语言语言模型,在少量标注数据的情况下,研究了短语断点预测的效果,发现跨语言迁移可以是一种有效的方法,尤其是在低资源语言中,因此建议使用跨语言迁移来改善语音合成前端。
Jun, 2023
本文提出一种基于预训练语言模型的更加高效的暂停插入框架,运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点,并使用持续时间感知的暂停插入以获得更自然的多人演讲,测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。
Feb, 2023
本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络,该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失,以辅助训练文本化模型,改善了各种端到端语音识别模型的单词错误率(WER)。
May, 2023
为了提高端到端文本转语音(TTS)的自然程度和可理解性,本文提出了一种情感感知的韵律短语模型(EmoPP),准确挖掘话语的情感线索并预测适当的短语断点,并通过客观和主观评估证明 EmoPP 在情感表达能力方面优于所有基线模型,取得了显著的性能。音频样本和代码可在 https://github.com/AI-S2-Lab/EmoPP 获取。
Sep, 2023
本研究提出了一种基于无监督学习的方法来对齐上下文和下一句子,它可以自动识别短语并生成词组内嵌入,实现了对语言模型进行了有效优化,模型在 Wiketext-103 数据集上达到 17.4 的最佳性能表现。
Jun, 2019
本文提出了一个基于已预训练语言模型和基于停顿的语调模型的语音合成系统 PuaseSpeech,其使用编码器和预测器来实现词语分组和停顿的建模,实验结果表明 PuaseSpeech 在自然度方面优于先前的模型。
Jun, 2023
本文针对长文本合成语音的特殊困难,通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展,改进了合成语音的韵律,其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估,得出了一种较强的合成语音系统,其中包括所有改进扩展,相对于同类竞品在语音自然度方面表现出显著的提升。
Jun, 2022
文章提出了一种使用语音合成生成大规模合成数据集的方法,以克服要求领域内语音数据记录的问题,并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。
Oct, 2019