基于轮廓引导的扩散模型目标修复

Feb, 2024

基于轮廓引导的扩散模型目标修复

Outline-Guided Object Inpainting with Diffusion Models

Markus Pobitzer, Filip Janicki, Mattia Rigotti, Cristiano Malossi

TL;DR使用扩充数据集的方法，通过创建基于注释目标实例的多样化图像和标记对来对实例分割数据集进行增强，同时保留原有标记的一致性。实验结果显示该方法成功生成了实际的目标实例变体，并在扩增区域内引入了多样性。同时，该方法可以与文本指导和其他图像增强技术自然地结合。

Abstract

instance segmentation datasets play a crucial role in training accurate and robust computer vision models. However, obtaining accurate mask annotations to produce high-quality segmentation datasets is a costly an

instance segmentation mask annotations augmenting datasets diffusion-based inpainting model object outline

发现论文，激发创造

学习通过首先移除图像对象来添加图像对象的绘画

通过利用分割蒙版数据集和在蒙版内修复的修复模型，我们可以实现自动逆向修复过程，将对象添加到图像中，在没有用户提供的输入蒙版的情况下，提供了一种无缝地根据文本指令添加对象的方法。

Apr, 2024

基于文本引导扩散模型的显著对象感知背景生成

通过稳定扩散和控制网络结构，本文引入了一种适应显著物体扩展任务的修补扩散模型，通过定量和定性结果证明了该方法相比于稳定扩散 2.0 修补具有更好的效果，可以减少显著物体的边界扩展程度。

Apr, 2024

一种简单的潜隐扩散方法用于全景分割和蒙版修复

该论文介绍了使用稳定的扩散和潜在扩散方法进行全景分割的架构，它通过训练浅层自动编码器和扩散模型实现了对分割掩模的操控，呈现了全景分割和遮罩修复的有 promising 结果。

Jan, 2024

Inst-Inpaint: 使用扩散模型指导对象移除

本论文提出了一种基于自然语言输入的图像修复算法，名为 Inst-Inpaint，可同时估计要移除的对象，并对其进行修复。为了支持该任务，我们首先构建了一个名为 GQA-Inpaint 的数据集。我们在合成和真实图像数据集上运行了各种 GAN 和扩散基线，使用不同的评估指标比较方法，并展示了显著的定量和定性改进。

Apr, 2023

数据集增强与实例级别的数据扩充

本研究提出了一种使用预训练的潜在扩散模型来扩充数据集的方法，并引入了实例级数据增强的概念。该方法通过重新绘制场景内的个别对象来改善卓越的显著目标检测、语义分割和物体检测模型的性能和泛化能力，并在需要数据匿名化时，通过重新绘制隐私敏感实例来实现。

Jun, 2024

以草图为引导的局部离散扩散图像修复

本研究工作中，我们研究了基于草图引导的图像修复任务。与在捕捉语义细节方面表现出色的经过深入研究的自然语言引导图像修复不同，相对较少研究的草图引导修复提供了更强的用户控制力，可指定待修复对象的形状和姿势。作为这个任务的早期解决方案之一，我们引入了一种新颖的部分离散扩散过程（PDDP）。PDDP 的正向传递在图像的掩蔽区域损坏，而反向传递使用我们提出的草图引导双向转换器以依赖于手绘草图来重建这些掩蔽区域。所提出的新颖转换器模块接受两个输入 —— 包含待修复区域的图像和用于建模逆扩散过程的查询草图。这一策略有效地解决了草图与自然图像之间的领域差异，从而提高了修复结果的质量。在缺乏针对此任务的大规模数据集的情况下，我们从 MS-COCO 合成了一个数据集，用于对我们提出的框架进行训练和广泛评估，与文献中的各种竞争方法进行对比。定性和定量结果以及用户研究表明，所提出的方法可以修复与提供的草图的视觉外观相符的逼真对象。为了促进进一步的研究，我们已将我们的代码公开提供在此 https URL 。

Apr, 2024

视频外绘的分层掩码三维扩散模型

视频外延的研究中，我们引入了一种基于遮罩的三维扩散模型，在保持填充区域的时间连续性方面，通过使用遮罩建模技术训练模型，利用多个引导帧连接多个视频剪辑推理结果，确保了时间连续性，并减少相邻帧之间的抖动。另外，我们通过交叉注意力，以全局帧为提示，引导模型获取当前视频剪辑之外的信息。同时，我们还引入了混合的由粗到细的推理流程来缓解伪影积累问题，与现有的只使用填充策略的由粗到细流程不同，我们的流程可以通过遮罩建模的双向学习，在生成稀疏帧时采用填充与插值的混合策略。实验证明我们的方法在视频外延任务中实现了最先进的结果。更多结果请参阅我们的此 URL。

Sep, 2023

DreamInpainter: 基于文本引导的主题驱动图像修复通过扩散模型

本研究介绍了一种新颖的任务 —— 基于文本导向的主题驱动图像修复，它将文本和示例图像结合起来进行图像修复。通过同时适应这两个条件，我们提出了一种两步法的方法 ——DreamInpainter，该方法通过计算密集的主题特征来确保准确的主题复制，并利用一个有区分性的令牌选择模块来消除多余的主题细节，保留主题的身份，同时允许根据其他条件（如遮罩形状和文本提示）进行更改。此外，我们引入了一种解耦正则化技术，以增强在存在示例图像的情况下对文本的控制。我们广泛的实验证明了我们的方法在视觉质量、身份保护和文本控制方面的卓越性能，展示了它在文本导向的主题驱动图像修复的情境中的有效性。

Dec, 2023

基于修复驱动的遮罩优化方法用于物体去除

本文提出了一种优化遮罩的方法，通过图像修复来提高对象去除的质量。通过使用分割提取的对象遮罩来训练修复网络，并在推断步骤中使用这些遮罩，解决了训练和推断图像之间的域差异问题。此外，通过连接分割网络和修复网络进行端到端训练，以改进修复性能，并通过遮罩扩展损失来实现大型和小型遮罩之间的权衡，进一步增强了端到端训练的效果。实验结果证明了我们的方法在通过图像修复实现更好的对象去除方面的有效性。

Mar, 2024

MosaicFusion：扩容词汇实例分割的扩散模型数据增强器

MosaicFusion 是一种简单而有效的基于扩散的数据增强方法，用于大词汇实例分割，通过文本到图像扩散模型生成合成标记数据，提高现有实例分割模型在罕见和新颖类别上的性能。

Sep, 2023