Bit Diffusion 是一种用于生成离散数据的通用方法,其主要思想是将离散数据表示为二进制位,并使用连续扩散模型将这些二进制位建模为实数,从而生成样本。自我调节和非对称时间间隔是该方法的进一步发展,这些技术可以大幅提高样本质量。该方法在离散图像生成和图像字幕生成任务中表现出色。
Aug, 2022
提出了一种新的两阶段框架,它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码,以实现更准确,更紧凑的代码表示,从而解决了现有 VQ 基于自回归模型的固定长度编码问题,该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计,从粗粒度到细粒度生成图像。
May, 2023
本研究提出了一种新的两阶段框架,包括掩蔽量化VAE(MQ-VAE)和Stackformer,在图像生成中减轻冗余感知信息的影响,实现了高效有效的图像生成。
非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点,与自回归模型相比,其参数规模为346M,使用一台V100 GPU在1秒内生成了一张256×256像素的高质量图像。
Dec, 2023
LlamaGen是一种新型的图像生成模型家族,采用大型语言模型中的原始“下一个标记预测”范例应用于视觉生成领域,不附带对视觉信号的归纳偏见,可以在适当缩放的情况下实现最先进的图像生成性能。
Jun, 2024
基于小波图像编码和语言变换器的自回归图像生成方法。
本研究解决了图像标记长度对图像重构和生成质量之间的权衡问题。提出的ImageFolder语义标记器通过折叠标记的方式提升自回归建模的生成效率和质量,利用双分支产品量化增强代表能力而不增加标记长度。实验结果表明,ImageFolder标记器在生成质量和标记长度方面表现优越。
Oct, 2024
本研究解决了传统扩散模型在训练和推理过程中由于马尔可夫特性所带来的效率问题。提出的DART模型通过非马尔可夫框架,将自回归和扩散模型结合,使图像补丁的迭代去噪更加高效,并在处理文本和图像数据上表现出卓越的性能。DART为可扩展的高质量图像合成设定了新的基准。
本研究解决了自回归模型在图像生成任务中的不足,提出了一种统一的观点,强调潜在空间在图像生成建模中的稳定性。通过引入一种有效的离散图像标记器,我们实现了首个在图像生成上超越LDM的GPT风格自回归模型,展示了优化潜在空间和离散标记化对提升图像生成模型能力的潜力。
本研究解决了图像生成任务中现有方法的性能瓶颈,提出了一种新的随机自回归建模(RAR)方法,通过在训练过程中随机排列输入序列,显著提高模型的双向上下文建模能力。该方法在ImageNet-256基准上的FID分数达到1.48,不仅超越了之前的自回归图像生成模型,还优于前沿的扩散基和掩码变换器方法,具有重要影响。
Nov, 2024