学习通过首先移除图像对象来添加图像对象的绘画
本论文提出了一种基于自然语言输入的图像修复算法,名为 Inst-Inpaint,可同时估计要移除的对象,并对其进行修复。为了支持该任务,我们首先构建了一个名为 GQA-Inpaint 的数据集。我们在合成和真实图像数据集上运行了各种 GAN 和扩散基线,使用不同的评估指标比较方法,并展示了显著的定量和定性改进。
Apr, 2023
使用扩充数据集的方法,通过创建基于注释目标实例的多样化图像和标记对来对实例分割数据集进行增强,同时保留原有标记的一致性。实验结果显示该方法成功生成了实际的目标实例变体,并在扩增区域内引入了多样性。同时,该方法可以与文本指导和其他图像增强技术自然地结合。
Feb, 2024
图像修复是将图像中的缺失或故意遮挡部分恢复出来的过程,在现代修复技术中,我们提供了当前主要方法的概述和评估,并着重解决了现有模型在生成过程中缺乏提示和控制能力的问题,并提供了多种实现该功能的方法。最终,通过对生成的高质量图像进行定性检查,我们评估了我们的方法的结果是否能正确地修复指定区域。
Mar, 2024
本文提出了一种优化遮罩的方法,通过图像修复来提高对象去除的质量。通过使用分割提取的对象遮罩来训练修复网络,并在推断步骤中使用这些遮罩,解决了训练和推断图像之间的域差异问题。此外,通过连接分割网络和修复网络进行端到端训练,以改进修复性能,并通过遮罩扩展损失来实现大型和小型遮罩之间的权衡,进一步增强了端到端训练的效果。实验结果证明了我们的方法在通过图像修复实现更好的对象去除方面的有效性。
Mar, 2024
我们介绍了一种新的任务 - 语言驱动的视频修复,它使用自然语言指令来指导修复过程。我们提出了 Remove Objects from Videos by Instructions (ROVI) 数据集,其中包含 5,650 个视频和 9,091 个修复结果,以支持该任务的训练和评估。我们还提出了一种新的基于扩散的语言驱动视频修复框架,这是该任务的第一个端到端基线,有效地整合了多模态大规模语言模型,以理解和执行复杂的基于语言的修复请求。我们详细的结果展示了该数据集的多样性和该模型在各种语言指导下的修复场景中的有效性。我们将公开发布数据集、代码和模型。
Jan, 2024
MagicRemover 是一种基于强大的扩散模型进行文本引导的图像修复的无需调参方法,通过引入注意力引导策略来限制扩散模型的采样过程,实现指定区域的擦除和遮挡内容的恢复,同时提出一种分类器优化算法以在少量采样步骤内提高去噪稳定性,并通过定量评估和用户研究与最先进的方法进行广泛的比较,显示出 MagicRemover 在高质量图像修复上的显著改进。
Oct, 2023
本论文提出了一个深度学习框架,通过使用卷积神经网络的多类语义分割和条件生成对抗模型来将显示动态内容的图片转换为逼真的静态帧,这种方法可以被用于增强现实领域和基于视觉的机器人定位目的,并在移除动态对象并模拟它们背后的静态结构方面,展示了我们方法的定性和定量比较结果。
Sep, 2018
本文提出了一种基于文本指导的图像编辑系统 Imagen Editor,通过利用对象检测器提出文本提示的修复遮罩并使用高分辨率图像来处理细节来实现忠实于输入文本且与输入图像一致的编辑,并提出一个名为 EditBench 的系统化基准来评估编辑效果。研究发现在训练过程中进行对象遮罩处理,可以显著提高文本与图像的对齐度和整体渲染效果,同时相较于文本渲染而言,这种方法在物体渲染和处理材料 / 颜色 / 大小属性上效果更佳。
Dec, 2022
通过稳定扩散和控制网络结构,本文引入了一种适应显著物体扩展任务的修补扩散模型,通过定量和定性结果证明了该方法相比于稳定扩散 2.0 修补具有更好的效果,可以减少显著物体的边界扩展程度。
Apr, 2024
通过用户定义的掩码和修复技术,引入修复偏差框架以提高图像生成的准确性,特别是对于新颖或不准确渲染的对象。通过实验验证,我们证明了该框架显著提高了生成图像的逼真度,从而扩展了模型的创造能力并减轻了偏见传承的风险。
May, 2024