Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibiting power-law scaling laws and zero-shot task generalization.
Apr, 2024
提出控制变分自编码器框架 ControlVAE,该框架使用基于自动控制理论的控制器自动调节 VAE 目标中的权重,以改进生成模型的表现,并在语言建模,解缠杂表示学习和图像生成等三个应用中进行评估,结果表明 ControlVAE 可以实现更好的解缠杂和重建质量。
Apr, 2020
本文提出了一种基于转换器和变分自动编码器(VAE)的条件变分自动编码器(CVAE)方法,在保持卓越的生成效果的同时增强了可控性和表征学习能力,实现了对长文本的神经故事生成。
Jan, 2021
通过定义一个统一的贝叶斯框架,我们提出了一种变分贝叶斯图像转换网络(VBITN),该网络可以实现多个图像转换和编辑任务;在诸多实验中我们显示了该方法在无监督图像到图像翻译中的有效性,并证明了其在语义编辑和混合领域翻译方面的新颖高级能力。
May, 2023
本文提出了一个基于深度生成模型的图像生成网络,结合卷积神经网络的归纳偏置和自回归的序列建模,通过多重领域特征的变量规范,设计了分布估计的 Gumbel 采样策略来提高图像的生成质量并克服于训练和推理过程中所产生的偏差和误差,取得了当前同类算法中最优秀的生成表现。
Jul, 2022
本文提出了 View Iterative Self-Attention Control (VisCtrl) 作为一种无需进行模型微调的训练方法,通过逐步将参考图像的特征嵌入目标图像,实现了一次去噪便能实现一张参考图像的一致和谐编辑,而且该方法还能在复杂的视觉领域进行扩展。
Jun, 2024
本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
UniControl 是一种新的可控生成基础模型,集成了多种可控因素,实现了基于任意语言提示的像素级精确图像生成,并通过多任务学习,使其具有适应不同可控条件的能力,实验证明其性能优于其他同类型模型。
介绍了神经网络生成模型、自然语言处理、VAE、可控制生成、深度神经网络等相关概念和应用。
Nov, 2022
本文提出了一种新的方法,通过找到生成模型中有意义的方向来提高生成模型潜在空间的可解释性,从而精确地控制生成图像的特定属性,如位置或比例。该方法对于搜索编码生成图像的简单变换方向(如平移,缩放或颜色变化)特别适用,并在 GAN 和变分自动编码器模型的质量和量化方面得到了证明。
Jan, 2020