通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

Nov, 2022

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

Learning utterance-level representations through token-level acoustic latents prediction for Expressive Speech Synthesis

PDF

Karolos Nikitaras, Konstantinos Klapsas, Nikolaos Ellinas, Georgia Maniati, June Sig Sung...

TL;DR本论文提出了一种表达性语音合成模型，该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性，如角色配音和说话风格，其中的潜在细节级别空间同时也捕捉更粗粒度的信息。

Abstract

This paper proposes an expressive speech synthesis model that utilizes token-level latent prosodic variables in order to capture and control utte

expressive speech synthesis latent variables prosodic representations token-level utterance-level

发现论文，激发创造

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

揭示表现力语音合成的潜在风格因素

本研究通过引入风格编码器，提出了一种基于数据驱动学习的语音合成模型，无需额外标注即可单独学习语音中的韵律风格，能够在一定程度上预测并控制合成语音的韵律风格。

Nov, 2017

为语音合成编码特定讲话者的潜在语音特征

提出了一种用于建模众多发言人的新方法，并通过对特征进行离散化和将其与语音合成模型相结合来表示目标发言人的语音特征。该方法在主观相似性评估中获得了较高的相似度平均意见分数（SMOS），甚至对于未见过的发言人，其性能优于最佳多发言人模型的已见发言人，而且也显著优于零样本方法。此外，该方法在生成新的虚拟发言人方面表现出色，并且通过编码潜在特征能够完全重构原始发言人的语音，说明该方法可以作为在各种任务中对发言人特征进行编码和重构的通用方法。

Nov, 2023

通过音频分析控制表现性语音合成的潜空间可视化和解释

该论文研究基于深度学习的文字转语音技术，着重关注控制表现力的研究，探讨不同潜在变量对语音表现力的影响，以期构建可控的语音合成系统。

Mar, 2019

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

多说者语音合成的细粒度噪声控制

本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法，以更好地进行语音合成并将主要因素与噪声和背景噪声分离。

Apr, 2022

使用 AR 和基于流的先验网络预测音素级韵律潜变量用于表现力语音合成

本文比较了不同架构（prior architectures）在预测从 FVAE 模型中提取的音素级韵律表示方面的表现，并使用主观和客观指标证明了基于正规化流的先验网络可以在表现力方面产生更加生动的语音，并提出了一个动态 VAE 模型与基于流的模型相比，尽管在表现力和变异性上有所减少，但可以产生更高质量的语音。

Nov, 2022

基于 Tacotron 的端到端韵律转移实现情感化语音合成

本文提出了一个通过学习潜在的韵律嵌入空间，从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法，利用学习到的韵律嵌入空间来进行条件控制，达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果，并定义了多种定量和主观指标来评估韵律转移，展示了在不同模型上韵律转移任务的结果和相应的音频样本。

Mar, 2018

口语句子的语音语言嵌入

本文提出了一种同时考虑音频和语言内容的口语句子嵌入方法，并通过音频 - 语言多任务学习问题构建了编码器 - 解码器模型，以学习长期依赖关系。实验表明，在语音识别和情感识别任务中，口语句子嵌入优于基于音素和单词级别的基准模型，且我们的嵌入模型可以更好地模拟高级声学概念并保留语言信息。因此，本文展示了一种泛化的多模态句子嵌入方法，并证明了其在口语语言理解方面的可行性。

Feb, 2019

神经机器翻译的潜在词性序列

本文介绍一种新的基于 latent variable 的神经机器翻译模型 LaSyn，通过修改基于 transformer 的 NMT 系统并使用基于词性信息的神经期望最大化算法作为 latent sequences 的正则化方法，实现了对目标语言句子结构的有效和高效推理，从而提高了翻译的质量和多样性。

Aug, 2019