InFusion:用于多概念零样本文本视频编辑的注入和注意力融合
本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法,利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性,证明在 DAVIS 数据集上,VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法,同时仅需大约一分钟即可处理一个视频。
Jun, 2023
本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用,在形状、纹理和颜色上强制执行分层的跨帧约束,实现低成本下的全局样式和局部纹理的时空一致性。
Jun, 2023
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
通过利用基本的二维图像文本到图像扩散模型,我们提出了一种新颖的统一编辑框架,结合了单一图像注入自注意力的编辑和共享注意力的视频编辑的优势,通过共享自注意力特征在参考和连续图像采样过程中,设计了一种采样方法,以在保持语义一致性的同时实现连续图像的编辑。实验结果表明,我们的方法能够在多种模态包括 3D 场景、视频和全景图像中进行编辑。
May, 2024
基于扩散模型,本文旨在系统性地改进文本引导的图像编辑技术,以解决其局限性,通过在模型的自注意机制中引入人为注释来限制编辑范围,并将编辑后的图像与源图像和构建的中间图像进行融合,实验证明所提出的 ``MaSaFusion'' 显著提高了现有的文本到图像编辑技术。
May, 2024
使用预训练的图像修复扩散模型,通过替换自注意力模块以创建帧级依赖关系,我们提出了一种编辑视频的方法,以确保编辑信息在所有视频帧中保持一致,从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。
Jun, 2024
基于文本驱动的视频编辑,我们介绍了一个利用文本到图像扩散模型的框架,生成高质量视频的同时保留输入视频的空间布局和运动,实现编辑视频的一致性。
Jul, 2023
零样本反演过程 (ZIP) 是一个框架,将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中,仅使用一个小型神经网络,ZIP 在文本提示的直观控制下产生多样的内容和属性,并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比,ZIP 在提供逼真的编辑效果的同时,生成了同等质量的图像。
Aug, 2023
通过利用预训练的 T2I 扩散模型处理空间和时空切片,我们提出了一种基于文本的视频编辑方法 Slicedit,能够生成保留原始视频结构和动作并满足目标文本的视频,相对于现有竞争方法,我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。
May, 2024