ε-VAE:去噪作为视觉解码
该论文介绍了Token-Critic,一个辅助模型,用于指导非自回归生成变压器的采样,该模型可选择要接受和要拒绝和重新采样的token,结合Token-Critic,生成变压器在ImageNet生成方面优于最近的扩散模型和GANs,可以在生成图像质量和多样性之间取得良好的平衡。
Sep, 2022
通过探索条件生成模型的新的形式和在图像、3D动画和视频中的创新应用,本论文试图在计算机视觉领域推动创新。我们的研究聚焦于提供噪声和视觉数据的可逆变换的体系结构,并应用编码器-解码器结构进行生成任务和3D内容操作。在所有情况下,我们都将条件信息纳入生成过程中,以提高视觉数据的合成效率和生成内容的质量。
Oct, 2023
本论文提出了一种新的生成方法——DARL,它使用仅有解码器的Transformer来自主预测图像块。我们发现仅使用均方差(Mean Squared Error,MSE)进行训练可以得到强大的表示。为了增强图像生成能力,我们用去噪补丁解码器替换了均方差损失。我们证明通过使用特定的噪声时间表并用更大的模型进行更长的训练可以改善学习到的表示。值得注意的是,最佳时间表与标准图像扩散模型中使用的典型时间表有显著差异。总体上,尽管DARL的架构简单,但在微调协议下其性能几乎与先进的掩码预测模型相当。这是在视觉感知和生成两方面功能上能够合并自回归和去噪扩散模型优势的重要一步。
Mar, 2024
这篇研究论文介绍了一种基于Transformer的一维令牌化方法(TiTok),其将图像令牌化为一维潜在序列,通过提供更紧凑的潜在表示形式,实现了比传统技术更高效和更有效的图像合成。
Jun, 2024
本研究解决了现有扩散模型在高分辨率图像生成中的语义不准确和对象复制问题。通过提出一种名为MegaFusion的新方法,利用创新的截断和传递策略,使得模型可以在不进行额外微调的情况下实现高分辨率生成。实验结果显示,MegaFusion显著提高了现有模型在多种长宽比下生成百万像素图像的能力,同时只需约40%的原始计算成本。
Aug, 2024
本研究解决了当前自回归图像生成模型在高效生成大词汇量图像时面临的挑战。我们提出了一种新的方法,通过不对称令牌因式分解优化模型的词汇量,并引入“下一个子令牌预测”以提升生成质量。研究结果显示,Open-MAGVIT2在图像重建方面达到了最先进的性能,并促进了这一领域的创新与创造力。
Sep, 2024
本研究解决了图像标记长度对图像重构和生成质量之间的权衡问题。提出的ImageFolder语义标记器通过折叠标记的方式提升自回归建模的生成效率和质量,利用双分支产品量化增强代表能力而不增加标记长度。实验结果表明,ImageFolder标记器在生成质量和标记长度方面表现优越。
Oct, 2024
本文研究了视觉自回归模型在图像生成中的速度限制,提出的LANTERN方法通过放宽接受条件,解决了“token选择模糊性”问题。这一方法不仅提高了推测解码的有效性,还在保持图像质量的同时实现了比现有技术更高的加速比例,显示了在视觉生成领域的潜在影响。
Oct, 2024
本研究解决了传统扩散模型在训练和推理过程中由于马尔可夫特性所带来的效率问题。提出的DART模型通过非马尔可夫框架,将自回归和扩散模型结合,使图像补丁的迭代去噪更加高效,并在处理文本和图像数据上表现出卓越的性能。DART为可扩展的高质量图像合成设定了新的基准。
Oct, 2024
本研究解决了图像理解(IU)模型在提升图像生成(IG)性能方面的潜力未被充分挖掘的问题。我们提出了一种基于特征重建目标的分词器训练方法,利用预训练的IU编码器提取知识,从而显著提高了IG性能,特别是VQ-KD CLIP在ImageNet-1k上达到了$4.10$的FID值。这些发现可能激励对图像分词器研究的进一步探索,并促使社区重新审视IU与IG之间的关系。
Nov, 2024