May, 2024

广角、3D场景和视频的统一编辑通过解耦的自注意注入

TL;DR通过利用基本的二维图像文本到图像扩散模型,我们提出了一种新颖的统一编辑框架,结合了单一图像注入自注意力的编辑和共享注意力的视频编辑的优势,通过共享自注意力特征在参考和连续图像采样过程中,设计了一种采样方法,以在保持语义一致性的同时实现连续图像的编辑。实验结果表明,我们的方法能够在多种模态包括3D场景、视频和全景图像中进行编辑。