面向稠密视觉任务的扩散型通用模型

CVPRJun, 2024

面向稠密视觉任务的扩散型通用模型

Toward a Diffusion-Based Generalist for Dense Vision Tasks

Yue Fan, Yongqin Xian, Xiaohua Zhai, Alexander Kolesnikov, Muhammad Ferjad Naeem...

TL;DR构建广义模型以同时解决多个计算机视觉任务是一个有趣的方向，本文探索基于扩散的视觉通用模型，将不同类型的密集预测任务统一为条件图像生成，并重新调整预训练的扩散模型，我们在四种不同类型的任务上实验证明了与其他视觉通用模型竞争性的性能。

Abstract

Building generalized models that can solve many computer vision tasks simultaneously is an intriguing direction. Recent works have shown image itself can be used as a natural interface for general-purpose visual

generalized models computer vision tasks diffusion-based vision generalists image generation dense vision tasks

发现论文，激发创造

InstructDiffusion: 一个用于视觉任务的通用建模接口

我们提出了 InstructDiffusion，这是一个统一且通用的框架，用于将计算机视觉任务与人类指令对齐。相比于现有方法，该框架不需要融合先验知识或为每个视觉任务预定义输出空间，而是将不同的视觉任务转化为与人类直观感知一致的图像处理过程，其输出空间是一个灵活且交互式的像素空间。通过扩散过程训练模型以根据用户指令预测像素，例如在红色中圈出男人的左肩或在左辆车上应用蓝色口罩。InstructDiffusion 可处理各种视觉任务，包括理解任务（如分割和关键点检测）和生成任务（如编辑和增强）。它甚至能够处理未见过的任务，并在新数据集上优于先前的方法。这将推进计算机视觉领域的人工智能通用建模接口的发展。

Sep, 2023

低层视觉中的扩散模型：概述

这篇综述论文全面地评估了扩散模型技术，并探讨了它们与其他深度生成模型的相关性，建立了理论基础。同时，该论文还总结了扩散模型在医学、遥感和视频等领域应用的情况，提供了常用基准和评估指标的概述，以及针对三个主要任务的扩散模型技术的全面评估。最后，作者指出当前扩散模型的局限性，并提出了未来研究的七个有趣方向。这篇综述论文旨在加深人们对于在低层次视觉任务中的去噪扩散模型领域的全面理解。

Jun, 2024

InstructCV: 信息指导下的图文扩散模型作为视觉通才

最近，在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展，将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面，该界面抽象了任务的具体设计选择，使得任务能够通过自然语言指令来执行。我们将多个计算机视觉任务转化为文本到图像生成问题，其中文本描述任务，生成的图像为视觉编码的任务输出。我们使用大规模语言模型来改写传达每个图像上要执行的特定任务的提示模板，并通过这个过程，创建了一个多模态和多任务训练数据集，包括输入图像、输出图像和带注释的指导说明。通过在构建的数据集上使用 InstructPix2Pix 架构将文本到图像扩散模型进行调节，将其功能从生成模型转变为基于指导的多任务视觉学习器。实验证明，我们的模型 InstructCV 在与其他综合和特定任务视觉模型的竞争中表现出色。而且，它还具备令人信服的对未见数据、类别和用户指令的泛化能力。

Sep, 2023

大数据训练的扩散模型具有可迁移的视觉模型

通过使用预训练的 UNet（或 transformer）扩散模型仅需适量的目标数据（甚至只有合成数据），在基础视觉感知任务中能够实现出色的可传递性表现，包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。

Mar, 2024

扩散模型在图像分类上胜过 GAN

本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型，并发现这种模型在图像分类任务中具有优异的性能，特别是在经过精心特征选择和池化的情况下，扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法

Jul, 2023

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

图像与视觉扩散模型教程

生成工具的惊人增长赋予了文本向图像生成和文本向视频生成等许多令人兴奋的应用，这些生成工具的底层原理是扩散概念，一种克服了以前方法中困难的特定抽样机制。本教程旨在讨论扩散模型的基本思想，目标受众包括对扩散模型进行研究或将其应用于解决其他问题的本科和研究生学生。

Mar, 2024

调色板：图像到图像扩散模型

本文提出了一种基于条件扩散模型的统一框架，用于图像到图像的转换，并在四个具有挑战性的图像到图像任务中测试了这个框架，即上色，修复，裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线，无需任务特定的超参数调整，架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响，并通过实证研究证明了自我关注在神经结构中的重要性。重要的是，我们提倡一个基于 ImageNet 的统一评估协议，具有人工评估和样本质量得分（FID，Inception Score，预训练 ResNet-50 的分类准确度和与原始图像的感知距离），我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后，我们展示了一个通用的，多任务扩散模型的执行效果与任务特定的专家模型相当或更好。

Nov, 2021

扩散模型其实是一个零样本分类器

本文介绍了基于文本和图像结合模型的生成分类方法，利用如 Stable Diffusion 的扩展图像扩散模型提供的在不需要额外训练的条件概率密度估计，实现了零样本分类，并证明其能够在多种基准测试上获得强大的结果及优于竞争方法的效果，同时还发现与对比差异对比性方法相比，扩散方法在多模式关系推理方面具有更强的能力，并且即使在弱增强和没有正则化的情况下，基于图像的扩散模型也能取得与训练于同一数据集的 SOTA 判别分类器相近的性能。

Mar, 2023