语调转移模型是否能转移语调？

Mar, 2023

Do Prosody Transfer Models Transfer Prosody?

Atli Thor Sigurgeirsson, Simon King

TL;DR该研究探讨了使用不同于目标语音的发音作为参考语音进行训练对 Text-to-Speech 中的韵律转移的影响。结果表明，这种方法的性能明显低于使用目标语音作为参考的方法。作者假设韵律转移模型并非学习可转让的韵律表示，而是高度依赖于参考说话者和参考文本的表达。

Abstract

Some recent models for text-to-speech synthesis aim to transfer the prosody of a reference utterance to the generated target synthetic speech. This is done by using a learned →

text-to-speech prosody transfer embedding synthesis utterance-level representation

发现论文，激发创造

基于 Tacotron 的端到端韵律转移实现情感化语音合成

本文提出了一个通过学习潜在的韵律嵌入空间，从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法，利用学习到的韵律嵌入空间来进行条件控制，达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果，并定义了多种定量和主观指标来评估韵律转移，展示了在不同模型上韵律转移任务的结果和相应的音频样本。

Mar, 2018

改进跨文本韵律转换的人机交互方法

通过使用人工调整显著的韵律相关因素，使得生成语音更适合目标文本，同时保持整体参考音调效果，可以提高跨文本韵律转换模型的感知自然度约 57.8％，分析结果显示，有限的用户努力就足够实现这些改进，并且潜在的参考空间接近性不是可靠的跨文本韵律相似度度量。

Jun, 2024

面向单说者神经文本转语音的细粒度鲁棒性韵律转移

本文提出一种神经文本转语音系统，通过使用变分自动编码器并在音标级别上聚合韵律特征，实现了从一个说话者到另一个说话者的精细韵律转移，并且解决了参考信号文本缺失的问题。主要关键字为 “神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳” 和 “序列到序列”。

Jul, 2019

跨语言对话的语调转移

语音到语音翻译系统需要克服适用于对话用途时可能会丧失言者意图和立场微妙细节的问题，通过开发一个数据收集协议并研究跨语言韵律差异，我们提出了一种简单的韵律差异度量方法，并基于此对三个基本模型的实用性进行了评估，结果可指导未来跨语言韵律以及有效韵律传递的语音到语音翻译系统的设计。

Jul, 2023

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

多语种语调转换：比较监督和迁移学习

对语音合成系统中的韵律传输领域进行研究，评估了适应多语言环境的预训练单语言文本转语音模型的学习方法，即监督微调和迁移学习。结果表明，与监督微调相比，迁移学习可以显著提高性能，平均 MOS 得分高出 1.53 点，RA 增加 37.5%，MCD 改善了约 7.8 个点。这些发现对于建立低资源语言的文本转语音模型具有重要意义。

May, 2024

零样本多说话人文本语音中的准确声调复制

本论文采用 utterance 级别的规范化和发音人嵌入，在提取精细的韵律特征的同时，成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验，结果表明可以在不降低质量的条件下，成功实现语音的克隆。

Jun, 2022

非自回归语音合成的分层韵律建模

分析了不同韵律建模设置下的非自回归 TTS 模型行为，并提出了一种层次结构，其中基于单词级韵律特征来预测音素级韵律特征的方法，该方法在客观和主观评估中在音频质量和语音韵律自然性方面优于其他竞争对手。

Nov, 2020

使用大型语言模型控制说话风格以实现表情丰富的 TTS

本研究旨在使用生成型语言模型与 TTS 模型，提供合适的发音特征，以更好地表达不同的说话风格和对话语境，从而提升语音合成的表现。

May, 2023

基于语音帧和语音风格重构损失的富表现力 TTS 训练

该研究提出了一种基于 Tacotron 的文本到语音系统的新训练策略，通过使用感知损失函数实现了在样式重建损失下的语音风格的习得，最终在自然度和表现力上都实现了非凡的性能，该模型是首次将感知质量作为损失函数并纳入 Tacotron 训练，从而实现更好的表现力。

Aug, 2020