May, 2024
音频驱动的预训练扩散模型生成与编辑
SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models
Burak Can Biner, Farrin Marouf Sofian, Umur Berkay Karakaş, Duygu Ceylan, Erkut Erdem...
TL;DR我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法,通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中,引入了额外的音频 - 图像交叉注意力层,可以与扩散编辑方法相结合进行音频条件的图像编辑。