用于少样本文本转语音说话人自适应的剩余适配器

Oct, 2022

用于少样本文本转语音说话人自适应的剩余适配器

Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation

Nobuyuki Morioka, Heiga Zen, Nanxin Chen, Yu Zhang, Yifan Ding

TL;DR本研究提出了一种参数高效的少样本说话人自适应方法，通过使用可训练轻量级模块 (residual adapters) 来增加骨干模型 (backbone model) 实现对各种目标说话人的共享，可以在保持语音自然性和说话人相似性的同时仅使用上亿模型参数的 0.1％。

Abstract

Adapting a neural text-to-speech (TTS) model to a target speaker typically involves fine-tuning most if not all of the parameters of a pretrained

neural text-to-speech fine-tuning multi-speaker speaker adaptation residual adapters

发现论文，激发创造

针对非典型和带口音语音的参数高效 ASR 适应的残差适配器

本文阐述了在处理非典型和带有重重口音的语音时，通过添加所谓的残差适配器，可以在只更新模型的极小部分参数时实现类似于模型微调的效果，从而优化 ASR 系统的性能。

Sep, 2021

ADAPTERMIX：探索使用多种适配器的混合模型以提升低资源 TTS 自适应效果

通过 “混合适配器” 方法，仅使用每个新说话者的一分钟数据，我们的方法在语音合成中提供了一种适应多样化背景说话者的有前途的解决方案，超过了基线，观察到 5％的说话者喜好测试的明显改善，并在适配器范例下只微调适配器参数（总模型参数的 11％），实现了参数高效的说话者适应，是其类别中的首个模型。

May, 2023

预训练语音模型的高效适配器调优用于自动说话人验证

通过在预先训练的模型中插入轻量级适配器模块，将自监督语音模型适应到说话人验证任务中，我们提出了一个高效的适配器框架。实验结果表明，该框架在更新仅 5% 的参数的情况下，超过了微调和其他参数高效的迁移学习方法，实现了卓越的性能。

Mar, 2024

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

HyperTTS: 基于超网络的文本转语音中的参数高效适应

Neural speech synthesis and domain adaptation in text-to-speech (TTS) achieved state-of-the-art performance using HyperTTS, a parameter-efficient model with Adapter blocks conditioned on speaker representations through a dynamic hypernetwork.

Apr, 2024

利用参数高效的迁移学习进行多语言文本到语音调整

在多种语言环境中，为了有效地合成语音，开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中，将参数高效的迁移学习方法（如适配器和超网络）与 TTS 架构集成的方法，并在实验中证明这种方法在性能上能够与全面微调方法相媲美甚至更好，参数数量仅为总参数的约 2.5%。

Jun, 2024

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

轻量级适配器调整用于多语言语音翻译

本文为多语言语音翻译（ST）提供了适配器的完整分析，其中适配器调整在 NLP 中作为微调的高效替代品，可使 ST 针对特定语言对进行专门优化，并从自动语音识别（ASR）任务和预先训练的 mBART 模型中进行转移，同时节省大量参数，具有与完全微调相当的可比结果。

Jun, 2021

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018