剪切和拼贴:主题驱动的视频编辑与注意力控制
该文提出了一种基于文本的图像编辑框架,利用交叉注意力层控制图像布局和文本之间的关系,实现了在不改变原始内容情况下的全局和局部编辑,从而达到高质量的图像合成。
Aug, 2022
这篇论文介绍了一种基于文本提示的区域图像编辑方法,无需用户提供的掩码或草图,通过利用现有的预训练文本到图像模型和引入边界框生成器来找到与文本提示对齐的编辑区域,实现了与当前图像生成模型兼容的灵活的编辑,并处理了包含多个对象、复杂句子或长段落的复杂提示。通过广泛的用户研究实验证明我们方法在操纵图像时与提供的语言描述相一致,具有高保真度和逼真度的竞争性表现。
Nov, 2023
本文提出了 ControlVideo,一种基于文本指导的视频编辑方法,通过结合文本到图像扩散模型和 ControlNet,优化视频的保真度和时间一致性以与给定文本对齐,并使用复杂设计策略在源视频的关键帧和时间注意力上进行微调,量化结果证明了 ControlVideo 相比其他竞争算法具有更高的保真度和一致性。
May, 2023
本文介绍了一种用于零样本、文本驱动外观操作的方法,利用内部数据集训练生成器,结合外部的 CLIP 模型进行损失计算,并通过生成编辑层的方式实现色彩与透明度的操作来实现高保真的自然图像和视频语义编辑。
Apr, 2022
本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法,利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性,证明在 DAVIS 数据集上,VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法,同时仅需大约一分钟即可处理一个视频。
Jun, 2023
本研究提出了一种名为 PhD 的框架,它利用样例图像和文本描述来指定用户意图,通过对生成或编辑的图像进行插入、修补和协调来保证其视觉一致性,并通过实验验证其在主题驱动的图像编辑和基于参考主题的文本驱动场景生成方面均达到了最先进的性能。
Jun, 2023
本文提出了两种基于提示生成框架的简单而有效的方法,以改善基于文本的图像编辑过程中用户工程的问题,并通过定性和定量实验证明了提示在基于文本的图像编辑中的重要性以及我们的方法可以与基于参考的提示相媲美。
Jun, 2023
通过图像重建、文本嵌入以及使用 UNet 结构和扩散模型,我们设计了一种新的文本引导图像编辑方法 Forgedit,具有强大的编辑能力,并在具有挑战性的文本引导图像编辑基准测试 TEdBench 中超越了以往的方法 Imagic,实现了最新的 state-of-the-art 结果。
Sep, 2023
该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法,通过将一个空间 - 时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD 和 LSMDC)的最先进性能。
Aug, 2023