用于少样本文本转语音说话人自适应的剩余适配器
本文阐述了在处理非典型和带有重重口音的语音时,通过添加所谓的残差适配器,可以在只更新模型的极小部分参数时实现类似于模型微调的效果,从而优化 ASR 系统的性能。
Sep, 2021
通过 “混合适配器” 方法,仅使用每个新说话者的一分钟数据,我们的方法在语音合成中提供了一种适应多样化背景说话者的有前途的解决方案,超过了基线,观察到 5%的说话者喜好测试的明显改善,并在适配器范例下只微调适配器参数(总模型参数的 11%),实现了参数高效的说话者适应,是其类别中的首个模型。
May, 2023
通过在预先训练的模型中插入轻量级适配器模块,将自监督语音模型适应到说话人验证任务中,我们提出了一个高效的适配器框架。实验结果表明,该框架在更新仅 5% 的参数的情况下,超过了微调和其他参数高效的迁移学习方法,实现了卓越的性能。
Mar, 2024
采用元学习方法对自适应文本到语音合成进行研究,通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型,该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。
Sep, 2018
Neural speech synthesis and domain adaptation in text-to-speech (TTS) achieved state-of-the-art performance using HyperTTS, a parameter-efficient model with Adapter blocks conditioned on speaker representations through a dynamic hypernetwork.
Apr, 2024
在多种语言环境中,为了有效地合成语音,开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中,将参数高效的迁移学习方法(如适配器和超网络)与 TTS 架构集成的方法,并在实验中证明这种方法在性能上能够与全面微调方法相媲美甚至更好,参数数量仅为总参数的约 2.5%。
Jun, 2024
现有的文本转语音(TTS)研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战,我们提出了一个整合了零样本和少样本演讲者适应策略的框架。
Apr, 2024
本文为多语言语音翻译(ST)提供了适配器的完整分析,其中适配器调整在 NLP 中作为微调的高效替代品,可使 ST 针对特定语言对进行专门优化,并从自动语音识别(ASR)任务和预先训练的 mBART 模型中进行转移,同时节省大量参数,具有与完全微调相当的可比结果。
Jun, 2021
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文提出了适应性讲话者神经声码器,用于参数文本到语音(TTS)系统,利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。
Nov, 2018