May, 2024

音频驱动的预训练扩散模型生成与编辑

TL;DR我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法,通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中,引入了额外的音频 - 图像交叉注意力层,可以与扩散编辑方法相结合进行音频条件的图像编辑。