通过语义预填充改进文本引导的物体填充
本文提出了一种基于文本指导的图像编辑系统Imagen Editor,通过利用对象检测器提出文本提示的修复遮罩并使用高分辨率图像来处理细节来实现忠实于输入文本且与输入图像一致的编辑,并提出一个名为EditBench的系统化基准来评估编辑效果。研究发现在训练过程中进行对象遮罩处理,可以显著提高文本与图像的对齐度和整体渲染效果,同时相较于文本渲染而言,这种方法在物体渲染和处理材料/颜色/大小属性上效果更佳。
Dec, 2022
本研究提出了一种名为PhD的框架,它利用样例图像和文本描述来指定用户意图,通过对生成或编辑的图像进行插入、修补和协调来保证其视觉一致性,并通过实验验证其在主题驱动的图像编辑和基于参考主题的文本驱动场景生成方面均达到了最先进的性能。
Jun, 2023
本研究介绍了一种新颖的任务——基于文本导向的主题驱动图像修复,它将文本和示例图像结合起来进行图像修复。通过同时适应这两个条件,我们提出了一种两步法的方法——DreamInpainter,该方法通过计算密集的主题特征来确保准确的主题复制,并利用一个有区分性的令牌选择模块来消除多余的主题细节,保留主题的身份,同时允许根据其他条件(如遮罩形状和文本提示)进行更改。此外,我们引入了一种解耦正则化技术,以增强在存在示例图像的情况下对文本的控制。我们广泛的实验证明了我们的方法在视觉质量、身份保护和文本控制方面的卓越性能,展示了它在文本导向的主题驱动图像修复的情境中的有效性。
Dec, 2023
最近的文本引导图像修复研究表明,HD-Painter 是一个完全无需训练的方法,可根据用户的提示进行高分辨率图像修复,并在文本对齐和生成准确性方面取得显著提升。
Dec, 2023
我们提出了一种称为文本引导对象生成(TOG)的新型图像编辑场景,即在实际图像中通过文本描述在空间上生成一个新的对象。我们的模型基于Swin-Transformer,具有全局感知自编码器和适应性压缩尺度以及分层视觉特征,用于生成下一个去噪过程的区域导向。通过引入可变形特征对齐来在融合多尺度视觉和语言信息的基础上层次性地优化空间定位,我们克服了传统注意机制只关注现有视觉特征的局限性。广泛的实验证明我们的模型在提高注意机制的定位能力的同时保留了扩散模型固有的生成能力。
Mar, 2024
LAR-Gen是一种图像修复方法,可以无缝地修复遮挡的场景图像,结合了文本提示和指定主题,通过粗到细的方式保证主题身份保持和本地语义一致性,并引入了一种新的数据构建流程来解决稀缺训练数据的问题,广泛的实验和各种应用场景展示了LAR-Gen在保持身份和文本语义一致性方面的优越性。
Mar, 2024
通过稳定扩散和控制网络结构,本文引入了一种适应显著物体扩展任务的修补扩散模型,通过定量和定性结果证明了该方法相比于稳定扩散2.0修补具有更好的效果,可以减少显著物体的边界扩展程度。
Apr, 2024
通过利用分割蒙版数据集和在蒙版内修复的修复模型,我们可以实现自动逆向修复过程,将对象添加到图像中,在没有用户提供的输入蒙版的情况下,提供了一种无缝地根据文本指令添加对象的方法。
Apr, 2024
通过将视频修复问题作为条件生成建模问题加以解决的框架,以及利用生成方法的优势,本文展示了能够生成多样化且高质量修复效果的方法,并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。
Apr, 2024
通过引入PILOT(基于新颖的语义集中和背景保护损失的潜在优化)方法,我们在现有的大规模扩散模型的基础上提出了一种优化方法,可以生成具有高保真度的修复区域,并与背景保持一致,从而在对给定提示进行回应时表现出更高的一致性、多样性和可信性。
Jul, 2024