Apr, 2023

AUDIT: 采用潜在扩散模型按照说明进行音频编辑

TL;DR本研究提出 AUDIT,一种基于潜在扩散模型的指导音频编辑模型,通过三元训练数据(指令、输入音频、输出音频)训练扩散模型,同时利用输入和指令生成输出音频,实现只修改需要编辑的音频,且只需要编辑指令而非完整的目标音频描述,取得了多项音频编辑任务上的最优结果。