ControlVAR：探索可控的视觉自回归建模

Jun, 2024

ControlVAR：探索可控的视觉自回归建模

ControlVAR: Exploring Controllable Visual Autoregressive Modeling

Xiang Li, Kai Qiu, Hao Chen, Jason Kuen, Zhe Lin...

TL;DR控制可视生成的一个新框架 ControlVAR，通过像素级控制在视觉自回归建模中实现灵活高效的条件生成

Abstract

conditional visual generation has witnessed remarkable progress with the advent of diffusion models (DMs), especially in tasks like control-to-image generation. However, challenges such as expensive computational

conditional visual generation diffusion models controlvar pixel-level controls controllable generation

发现论文，激发创造

视觉自回归建模：通过下一尺度预测实现可扩展图像生成

Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibiting power-law scaling laws and zero-shot task generalization.

Apr, 2024

ControlVAE: 可控变分自编码器

提出控制变分自编码器框架 ControlVAE，该框架使用基于自动控制理论的控制器自动调节 VAE 目标中的权重，以改进生成模型的表现，并在语言建模，解缠杂表示学习和图像生成等三个应用中进行评估，结果表明 ControlVAE 可以实现更好的解缠杂和重建质量。

Apr, 2020

基于 Transformer 的条件变分自编码器用于可控的故事生成

本文提出了一种基于转换器和变分自动编码器（VAE）的条件变分自动编码器（CVAE）方法，在保持卓越的生成效果的同时增强了可控性和表征学习能力，实现了对长文本的神经故事生成。

Jan, 2021

基于变分贝叶斯框架的领域相关变量高级图像生成

通过定义一个统一的贝叶斯框架，我们提出了一种变分贝叶斯图像转换网络（VBITN），该网络可以实现多个图像转换和编辑任务；在诸多实验中我们显示了该方法在无监督图像到图像翻译中的有效性，并证明了其在语义编辑和混合领域翻译方面的新颖高级能力。

May, 2023

自回归图像生成与集成量化

本文提出了一个基于深度生成模型的图像生成网络，结合卷积神经网络的归纳偏置和自回归的序列建模，通过多重领域特征的变量规范，设计了分布估计的 Gumbel 采样策略来提高图像的生成质量并克服于训练和推理过程中所产生的偏差和误差，取得了当前同类算法中最优秀的生成表现。

Jul, 2022

基于视图迭代自注意力控制的无调整视觉定制化

本文提出了 View Iterative Self-Attention Control (VisCtrl) 作为一种无需进行模型微调的训练方法，通过逐步将参考图像的特征嵌入目标图像，实现了一次去噪便能实现一张参考图像的一致和谐编辑，而且该方法还能在复杂的视觉领域进行扩展。

Jun, 2024

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为 Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

UniControl：一种用于自然环境中可控视觉生成的统一扩散模型

UniControl 是一种新的可控生成基础模型，集成了多种可控因素，实现了基于任意语言提示的像素级精确图像生成，并通过多任务学习，使其具有适应不同可控条件的能力，实验证明其性能优于其他同类型模型。

May, 2023

控制性文本生成的变分自编码器综述

介绍了神经网络生成模型、自然语言处理、VAE、可控制生成、深度神经网络等相关概念和应用。

Nov, 2022

通过连续变异因素控制生成模型

本文提出了一种新的方法，通过找到生成模型中有意义的方向来提高生成模型潜在空间的可解释性，从而精确地控制生成图像的特定属性，如位置或比例。该方法对于搜索编码生成图像的简单变换方向（如平移，缩放或颜色变化）特别适用，并在 GAN 和变分自动编码器模型的质量和量化方面得到了证明。

Jan, 2020