图像翻译为扩散视觉编程

Jan, 2024

Image Translation as Diffusion Visual Programmers

Cheng Han, James C. Liang, Qifan Wang, Majid Rabbani, Sohail Dianat...

TL;DR我们引入了新颖的扩散可视化编程器 (DVP)，这是一个神经符号图像转换框架。我们提出的 DVP 在 GPT 架构中无缝嵌入了一个条件灵活的扩散模型，为各种符号步骤（包括 RoI 识别、风格转换和位置操作）提供一致的视觉程序序列，实现透明和可控的图像转换过程。大量实验证明了 DVP 的卓越性能，超过了当前艺术的表现。其中 DVP 的几个关键功能是：通过实例标准化实现条件灵活的翻译，使模型消除了手动引导导致的敏感性，并始终专注于用于高质量内容生成的文本描述；框架通过将特征空间中的复杂高维概念解读为更易理解的低维符号（如 [Prompt]、[RoI object]）来增强上下文推理能力，从而实现了局部的、无上下文的编辑和整体的一致性维护；最后，DVP 在每个编程阶段提供明确的符号表示，提高了系统的可控性和可解释性，使用户能够直观地解释和修改结果。我们的研究在将人工图像翻译过程与认知智能相协调方面迈出了重要的一步，具有广泛的应用前景。

Abstract

We introduce the novel diffusion visual programmer (dvp), a neuro-symbolic image translation framework. Our proposed dvp seamlessly embeds

diffusion visual programmer neuro-symbolic image translation dvp condition-flexible translation computer vision models

发现论文，激发创造

视觉程序蒸馏：将工具和编程推理融入视觉 - 语言模型

通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上，从而改善计数、理解空间关系和组合推理等能力，并在真实世界的应用（有限数据情况下的内容管理）中得到验证。

Dec, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

基于扩散的视觉感知中的隐式和显式语言指导

本研究介绍了一种基于隐式和显式语言引导的 IGDP 扩散感知框架，利用大规模视觉 - 语言预训练实现高质量图像生成，同时在语义分割和深度估计等感知任务上取得了有希望的性能。

Apr, 2024

Design Booster：一种注重空间布局保留的文本引导扩散模型用于图像翻译

提出了一种通过学习感知图片布局和感知文本共同来进行灵活的图片翻译的新方法，该方法在实验中具有最佳的风格和语义图片翻译效果，并且需要的时间最短。

Feb, 2023

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

VisualProg Distiller: 非可微视觉编程框架的微调学习

通过视觉编程（VisualProg）的过程精馏，我们提出了一种方法来优化每个 VisualProg 子模块的性能，从而提高整体任务性能，并在大规模数据集上进行了广泛而全面的实验评估。

Sep, 2023

文本到图像生成和评估的可视化编程

本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架，用于文本到图像的生成和评估。其中，VPGen 将 T2I 生成拆分成三个步骤，使用 LM 控制前两个步骤，并提供更强的空间控制；VPEval 是一个解释性和可解释性评估框架，基于视觉编程，能够提供针对技能特定和开放性提示的人类相关性评估。

May, 2023

使用扩散模型在图像中自动进行虚拟产品放置和评估

介绍了一种新颖的三阶段全自动虚拟产品放置系统，通过语言引导图像分割模型识别出图像中适合进行产品修复的区域，并使用经过微调的 Stable Diffusion 算法将产品修复到先前识别出的候选区域中，最后引入一个 “对齐模块” 有效地筛选出质量低的图像。综合实验表明，该对齐模块确保每个生成的图像中都存在所需的产品，并提高了图像的平均质量 35%。本文提出的虚拟产品放置系统展示了显著的潜力，可用于改变虚拟广告和营销策略的领域。

May, 2024

InstructCV: 信息指导下的图文扩散模型作为视觉通才

最近，在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展，将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面，该界面抽象了任务的具体设计选择，使得任务能够通过自然语言指令来执行。我们将多个计算机视觉任务转化为文本到图像生成问题，其中文本描述任务，生成的图像为视觉编码的任务输出。我们使用大规模语言模型来改写传达每个图像上要执行的特定任务的提示模板，并通过这个过程，创建了一个多模态和多任务训练数据集，包括输入图像、输出图像和带注释的指导说明。通过在构建的数据集上使用 InstructPix2Pix 架构将文本到图像扩散模型进行调节，将其功能从生成模型转变为基于指导的多任务视觉学习器。实验证明，我们的模型 InstructCV 在与其他综合和特定任务视觉模型的竞争中表现出色。而且，它还具备令人信服的对未见数据、类别和用户指令的泛化能力。

Sep, 2023

仲裁者可参与：通过模型反演进行条件生成的替代方法

通过优化传统的采样过程，基于视觉语言模型的训练无生成模型可以实现更好的文本 - 图像对齐。结合 Score Distillation Sampling 模块，我们的方法可以生成高质量的图像。

Feb, 2024