Jun, 2023

对齐,自适应和注入:音频引导的统一图像生成

TL;DR本文提出了一个统一框架 ——Align, Adapt, and Inject (AAI),用于基于声音进行图像生成、编辑和风格化。其方法将输入的声音转换成一个声音令牌,并利用现有强大的扩散式 T2I 模型,从而实现了方便而经济的声音引导的图像生成、编辑和风格化。实验表明,AAI 方法优于其他最先进的文本和声音引导方法。