快速编辑:通过语义感知扩散微调实现快速文本引导单图编辑
本文提出了一种基于条件扩散模型的语义图像编辑方法DiffEdit,能够自动生成需要编辑的图像区域的遮罩,并利用潜在推理保留感兴趣区域的内容,该方法在ImageNet数据集上实现了最先进的编辑表现。
Oct, 2022
本文提出了一种基于Prompt Tuning Inversion的精确快速反演技术,用于文本驱动的图像编辑,能够在保留输入图像高准确度的同时进行灵活的编辑,实验证明该方法在ImageNet数据集上的表现优于现有技术。
May, 2023
该研究提出了一种名为Custom-Edit的文本导向图像编辑方法,使用少量参考图像进行模型自定义,可以显著提高引用相似性同时保持源相似性,适用于各种数据集。
May, 2023
提出了一个使用缓存优化的稀疏扩散模型推断引擎(FISEdit),用于高效的文本到图像编辑,结果表明,使用FISEdit可以提高推断速度至少3.4倍,并获得更高质量的图像。
May, 2023
通过图像重建、文本嵌入以及使用UNet结构和扩散模型,我们设计了一种新的文本引导图像编辑方法Forgedit,具有强大的编辑能力,并在具有挑战性的文本引导图像编辑基准测试TEdBench中超越了以往的方法Imagic,实现了最新的state-of-the-art结果。
Sep, 2023
通过引入 EditVal,这是一个标准化的用于定量评估文本引导的图像编辑方法的基准测试,本研究对8种前沿扩散编辑方法进行了基准测试,发现 Instruct-Pix2Pix 和 Null-Text 的性能最好且能保持原始图像特性,而大多数编辑方法在空间操作方面失败,没有一个单独在各种编辑类型上排名最佳的方法。希望我们的基准测试能为未来开发更可靠的文本引导图像编辑工具铺平道路。
Oct, 2023
我们提出了DiffEditor方法,利用图像提示和文本提示来改善细粒度的图像编辑,通过在扩散采样中引入局部组合的随机微分方程 (SDE),梯度引导和时间旅行策略,我们的方法在各种细粒度图像编辑任务中取得了最先进的性能。
Feb, 2024
本文解决了少步骤扩散模型中精确图像反演和解耦图像编辑的挑战。我们提出了一种基于编码器的迭代反演技术,通过条件输入图像和先前步骤重构图像来实现图像编辑。数据显示,利用自动生成的详细文本提示,可以在少步骤扩散模型中轻松实现解耦控制,显著提升编辑的实时性和效果。
Aug, 2024
本研究解决了现有文本引导扩散模型在真实图像编辑中重建保真度与可编辑性之间的挑战。提出的面向任务的扩散反演(TODInv)框架通过优化扩展的\(\mathcal{P}^*\)空间中的提示嵌入,使反演和编辑结合,确保高保真度和精确可编辑性。实验结果表明,TODInv在基准数据集上优于现有方法,实现了定量和定性上的提升,并展示了其在少步扩散模型中的多样性和适应性。
Aug, 2024
本研究解决了扩散变换器在文本与图像潜在特征如何共同影响生成图像语义的知识空白。通过分析潜在空间,我们发现这两个空间可以解耦,并形成一个精确的语义表示空间,从而实现零-shot的细粒度语义控制。我们的研究提出了EMS框架,能够有效进行图像编辑,促进更精细的语义操控。
Aug, 2024