Attentron: 利用基于注意力的可变长度嵌入的少样本文本转语音

May, 2020

Attentron: 利用基于注意力的可变长度嵌入的少样本文本转语音

Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding

Seungwoo Choi, Seungju Han, Dongyoung Kim, Sungjoo Ha

TL;DR提出了一种名为 Attentron 的 few-shot TTS 模型，通过引入两个编码器解决了克隆隐藏说话人的问题并显著提高了生成音频的质量和说话人相似度。

Abstract

On account of growing demands for personalization, the need for a so-called few-shot tts system that clones speakers with only a few data is emerging. To address this issue, we propose attentron, a few-shot TTS m

few-shot tts system attentron speech synthesis encoders speaker similarity

发现论文，激发创造

使用动态卷积注意力的零样本长篇语音克隆

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

可轉移音素嵌入的少樣本跨語言語音合成

本文研究一种可转移的音位嵌入框架，旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下，作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征，实现了合成语音质量的有效改进。实验证明，使用 30 秒左右数据就能够合成出可理解的说话声音。

Jun, 2022

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

Cotatron: 无需并行数据的基于转录的语音编码器实现任意 - 多语音转换

本文提出了一种基于音素后验概率的 Cotatron 语音编码器，其可以使用常规的 TTS 数据集进行训练，通过使用该编码器，我们的系统可以转换未曾见过的说话人的语音，并实现自动转录。

May, 2020

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

BOFFIN TTS: 贝叶斯优化实现少样本说话人自适应

使用 BOFFIN TTS，利用贝叶斯优化实现神经文本转语音的少量说话人适应，通过优化调节超级参数值，能够在小于十分钟的语音中学习新的说话人，从而实现与基础模型训练的说话人相同的自然度。

Feb, 2020

Meta-TTS: 面向 Few-Shot 说话人自适应的元学习文本转语音

本文提出了一种使用元学习算法的多说话人文本转语音（Meta-TTS）模型，通过少量的适应步骤，可以生成具有高语音相似度的语音合成，并且比已有的说话人适应方法和说话人编码方法更为高效。

Nov, 2021

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018