通过高效的微调学习语音生成的细粒度可控性

Jun, 2024

通过高效的微调学习语音生成的细粒度可控性

Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning

Chung-Ming Chien, Andros Tjandra, Apoorv Vyas, Matt Le, Bowen Shi...

TL;DR提出了 Voicebox Adapter 方法，通过交叉注意力模块将细粒度条件整合到预训练的 Voicebox 语音生成模型中，探索了各种高效的微调方法，实验证明，采用具有偏差微调配置的 LoRA 方法性能最佳，提高了可控性同时保持了语音质量，表明 Voicebox Adapter 在三种细粒度条件生成任务中具有效力和资源效率，并且通过后续实验证明了在不同数据设置中 Voicebox Adapter 的鲁棒性。

Abstract

As the scale of generative models continues to grow, efficient reuse and adaptation of pre-trained models have become crucial considerations. In this work, we propose →

generative models pre-trained models voicebox adapter fine-grained conditions speech generation

发现论文，激发创造

预训练语音模型的高效适配器调优用于自动说话人验证

通过在预先训练的模型中插入轻量级适配器模块，将自监督语音模型适应到说话人验证任务中，我们提出了一个高效的适配器框架。实验结果表明，该框架在更新仅 5% 的参数的情况下，超过了微调和其他参数高效的迁移学习方法，实现了卓越的性能。

Mar, 2024

基于适配器的多种口语语言处理任务统一模型

通过适配器微调，我们研究了开展统一模型以有效处理多个口语处理任务的潜力，并在 SUPERB 基准测试中实验证明，适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4％，同时在参数更新方面保持高效。

Jun, 2024

多说者语音合成的细粒度噪声控制

本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法，以更好地进行语音合成并将主要因素与噪声和背景噪声分离。

Apr, 2022

Audiobox: 统一音频生成的自然语言触发器

Audiobox 是一种基于流匹配的统一模型，通过描述和示例的提示来增强可控性，统一了语音和声音生成范式，并通过使用 Bespoke Solvers 提高生成速度。

Dec, 2023

多条件扩散模型的音频生成

我们提出了一种新的模型，通过包含额外条件（时间戳、语调曲线和能量曲线）作为文本的补充，增强了现有预训练文本转音频模型的可控性，实现了对生成音频的时间顺序、音高和能量的精细控制。通过使用可训练的控制条件编码器和可训练的融合网络，在保持预训练文本转音频模型权重不变的同时，将额外条件编码和融合。由于缺乏合适的数据集和评估指标，我们将现有数据集整合成一个包含音频和相应条件的新数据集，并使用一系列评估指标来评估可控性能。实验结果表明，我们的模型成功实现了细粒度控制，实现了可控的音频生成。音频样本和我们的数据集可在此 https URL 获取。

Aug, 2023

Voicebox: 多语言通用语音生成的文本引导技术大规模应用

Voicebox 是实现规模可扩展的非自回归流匹配模型，通过上下文学习可以执行音频转换、噪音去除、内容编辑以及样本生成等多项任务，且在零样本 TTS 合成方面优于 VALL-E 模型。

Jun, 2023

TAIL：大型预训练模型的任务专用适配器用于模仿学习

TAIL 框架通过使用 LoRA 技术实现对大型预训练模型的高效适应，其在新任务中只使用了 1% 的可训练参数，避免了灾难性遗忘并保持了持续学习环境中的适应能力。

Oct, 2023

GRASS: 语音语义理解统一生成模型

该论文通过引入统一的端到端（E2E）框架，对语音语义理解任务进行了指令微调技术的探索，该框架在语音数据上生成与任务相关提示条件下的语义标签。实验证明，我们提出的模型在微调下游任务后显著优于最先进的模型，并且在零样本和少样本情况下取得了有竞争力的性能。为了促进未来对语音到语义任务的指令微调工作，我们发布了我们的指令数据集和代码。

Sep, 2023

连线：针对黑盒图像 - 语言模型的协作微调

该论文提出了一种名为 CraFT 的协作微调方法，用于将黑盒预训练视觉语言模型应用于下游任务，通过仅获得输入提示和输出预测来优化模型，并在少样本分类上展示出显著的结果。

Feb, 2024

语音基础模型的高效领域自适应

本论文采用自监督预训练方法 BEST-RQ，并使用 JUST Hydra 进行源域和无监督目标域数据的联合微调，将 FM 编码器适配器和解码器微调到目标域，使用少量带标记的域内数据，实现了在大规模 YouTube 和语音搜索任务中既数据又模型参数的高效性，在仅使用 2160 万个带标签的域内数据和 130.8 M 的微调参数的情况下，与另外 3 亿带标签的域内数据从头训练 731.1M 模型的效果相同。

Feb, 2023