通过潜在扩散模型探索上下文分割

Mar, 2024

通过潜在扩散模型探索上下文分割

Explore In-Context Segmentation via Latent Diffusion Models

Chaoyang Wang, Xiangtai Li, Henghui Ding, Lu Qi, Jiangning Zhang...

TL;DR通过使用代表性的生成模型 —— 潜在扩散模型（LDM），我们从新的角度探索了上下文分割问题，提出了两种元架构和相应的输出对齐和优化策略。我们通过全面的消融研究发现，分割质量取决于输出对齐和上下文指令。实验证明，我们的方法在挑战性的上下文分割任务中取得了与专业模型或视觉基础模型相当甚至更强的结果，证明了潜在扩散模型也可以达到足够好的效果。

Abstract

in-context segmentation has drawn more attention with the introduction of vision foundation models. Most existing approaches adopt metric learning or masked image modeling to build the correlation between visual prompts and input image queries. In this work, we explore this problem fro

in-context segmentation latent diffusion model output alignment optimization strategies in-context instructions

发现论文，激发创造

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

上下文扩散：上下文感知图像生成

我们提出了 Context Diffusion，这是一种基于扩散的框架，使图像生成模型能够从环境中呈现的可视示例中学习。通过为查询图像提供上下文示例和文本提示，最近的工作解决了图像生成中的这种上下文学习问题。然而，当没有提示时，生成的图像的质量和保真度会降低，表明这些模型无法真正从视觉环境中学习。为了解决这个问题，我们提出了一种新颖的框架，将可视环境的编码和查询图像结构分开。这使得我们的模型能够从视觉环境和文本提示中学习，也能从其中任何一个中学习。此外，我们使我们的模型能够处理少量示例的设置，以有效地解决不同的上下文学习场景。我们的实验证明和用户研究表明，与对应的模型相比，Context Diffusion 在领域内和领域外的任务中都表现出色，从而提高了图像质量和保真度。

Dec, 2023

使用潜变量扩散模型进行高分辨率视频合成的对齐

该研究将 LDM 范例应用于高分辨率视频生成中，利用图像生成器实现视频生成，利用时间维度对视频超分辨率模型进行精细调整，验证其在真实驾驶视频上的表现，且可将 LDM 应用于文本到视频模型中。

Apr, 2023

潜在扩散模型中的场景表示：超越表面统计

本文研究了潜在扩散模型在产生逼真图像时的内在机制，通过使用线性探针发现，LDM 的内部激活编码了简单场景的几何和显著对象 / 背景区别的线性表示，并且这些表示出现在去噪处理的早期阶段，对 LDM 图像合成具有因果作用，并可用于简单的高级编辑。

Jun, 2023

DGInStyle：基于图像扩散模型和风格化语义控制的领域通用语义分割

我们提出了一种名为 DGInStyle 的高效数据生成流水线，通过将预训练的潜在扩散模型（LDM）专门用于语义控制生成，设计一种多分辨率潜在融合技术来克服 LDM 对主导对象的偏见，并提出一种样式交换技术来赋予丰富的生成先验学习的语义控制。使用 DGInStyle，我们生成了一个多样化的街景数据集，在其上训练了一个领域无关的语义分割模型，并在多个流行的自动驾驶数据集上评估了该模型的性能，我们的方法一致提高了几种领域泛化方法的性能，在某些情况下比之前的最先进方法提高了 2.5 个 mIoU，而没有我们的生成增强方案。

Dec, 2023

WildFusion：学习视角空间中的三维感知潜空扩散模型

基于视图空间和潜在扩散模型的 3D 感知图像合成方法，通过压缩潜在表示学习图像的 3D 结构，实现高质量的 3D-consistent 图像合成，无需多视角或 3D 几何的直接监督，不依赖于规范化的相机坐标。

Nov, 2023

LDM3D：3D 的潜在扩散模型

本研究提出了一种潜在扩散模型用于 3D (LDM3D)，可以从给定的文本提示生成图像和深度图像数据，使用生成的 RGB 和深度图像可以创建令人沉浸的和交互性 360 度视图体验，有潜力革新娱乐、游戏、建筑和设计等行业。

May, 2023

使用潜在扩散模型进行高分辨率图像合成

通过在预训练的自编码器的潜在空间中应用扩散模型，引入交叉注意力层到模型体系结构中，以更少的计算要求取得接近最优的性能，实现高分辨率合成，缩小像素级 DMs 对计算资源的需求。

Dec, 2021

扩散模型中基于上下文的学习解锁

文章提出了 Prompt Diffusion 这个框架，可以实现基于扩散的生成模型的上下文学习，同时还展示了其在机器视觉中的应用，包括视觉 - 语言任务和文本指导的图像编辑。

May, 2023

多源潜变扩散模型的视频编辑

FLDM 是第一个将现成的图像编辑方法融入视频 LDM 的视频编辑方法，通过在视频 LDM 中应用现成的图像编辑方法，FLDM 能够改善编辑视频的文字对齐和时间一致性。

Oct, 2023