使用预训练语言模型的时长感知暂停插入多说话人文本转语音

Feb, 2023

使用预训练语言模型的时长感知暂停插入多说话人文本转语音

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin...

TL;DR本文提出一种基于预训练语言模型的更加高效的暂停插入框架，运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点，并使用持续时间感知的暂停插入以获得更自然的多人演讲，测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。

Abstract

pause insertion, also known as phrase break prediction and phrasing, is an essential part of tts systems because proper pauses with natural duration significantly enhance the rhythm and intelligibility of

pause insertion tts language model speaker characteristics synthetic speech

发现论文，激发创造

基于预训练语言模型和基于停顿的韵律建模的自然语音合成 (PauseSpeech)

本文提出了一个基于已预训练语言模型和基于停顿的语调模型的语音合成系统 PuaseSpeech，其使用编码器和预测器来实现词语分组和停顿的建模，实验结果表明 PuaseSpeech 在自然度方面优于先前的模型。

Jun, 2023

利用停顿信息提高实体识别的准确性

本文阐述语言学中名词周围的语音停顿可以用于改善机器学习语言理解任务；作者的提出的一种新颖的语义嵌入模型能够用于增强浅层实体分析，结果显示此模型相比传统方法能够将误差率提高 8%。

Sep, 2021

言之有物：使用暂停标记训练语言模型

使用一个可学习的 “暂停” 标记和推迟提取模型输出的方法，我们在语言模型上执行训练和推理，并观察到模型在预训练和微调过程中实现了推理时间延迟的增益，这对各种推理、问答和基本理解任务都有积极的影响，进一步将延迟下一个标记预测的方法应用于各种应用场景可能引发更多概念性和实践性的未来研究问题。

Oct, 2023

端到端 TTS 系统中对说话者无关语调断句模型的研究

该论文研究了在端到端 TTS 系统的上下文中的短语断句预测问题，并评估了在儿童故事合成中使用预测短语断句的实用性和有效性，结果表明使用训练好的短语模型预测短语断句的故事比直接合成的故事更受听众理解。

Apr, 2023

融合语言学知识的实证研究：个性化自然语音合成中的充填式停顿

本研究旨在探讨基于语言知识的个性化自发性语音合成，着重针对充满话语不流畅的填充停顿进行个性化处理，通过开发一个基于多说话者语料库训练的非个性化外部填充停顿预测器的语音合成方法进行比较评估，证明了填充停顿时态与词汇的交错对自然度和个性化的必要性。

Oct, 2022

优化韩国语 TTS 停顿生成的句法和声学线索相互作用

通过综合建模句法和声学线索，提出了一种能够生成自然语音的新框架，有效解决高资源语言和韩语中的停顿错误问题。

Apr, 2024

简单有效的多句 TTS 系统，具有表达和连贯的韵律

本文针对长文本合成语音的特殊困难，通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展，改进了合成语音的韵律，其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估，得出了一种较强的合成语音系统，其中包括所有改进扩展，相对于同类竞品在语音自然度方面表现出显著的提升。

Jun, 2022

文本转语音的预训练语言模型的比较分析

本研究旨在比较分析不同的预训练语言模型在文本转语音任务中的影响，包括韵律预测和停顿预测，并发现模型大小与质量之间存在对数关系，以及中性和表达韵律之间的显著性能差异。此外，还发现任务对较小模型不太敏感，并且我们的实证结果与这些语言模型的 GLUE 分数之间存在强相关性。据我们所知，这是第一项研究探究不同预训练语言模型对文本转语音影响的研究。

Sep, 2023

基于语音韵律从音素和音素时长中提取说话人嵌入的多说话人语音合成

该论文提出了一种基于语音节奏的说话者嵌入方法，用于使用目标说话者的少量话语对音素持续时间进行建模。

Feb, 2024

关于合成训练数据中音素持续时间变异性对自动语音识别的相关性

通过生成的合成数据以及时长建模来改进低资源环境或领域不匹配任务中的自动语音识别系统，并使用半监督方法在改进中合成数据的语音识别系统中取得了改进。

Oct, 2023