小波是自回归图像生成的全部所需
非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点,与自回归模型相比,其参数规模为 346M,使用一台 V100 GPU 在 1 秒内生成了一张 256×256 像素的高质量图像。
Dec, 2023
最新的图像编码器 VQ-VAE 已经能够使用自回归方法进行文本到图像的生成,但是这些方法尚未利用预训练语言模型的适应性,本研究通过调整预训练语言模型,对自回归文本到图像生成进行了探索,发现预训练语言模型的帮助有限,并提供了两方面的解释,即图像标记与文本标记的语义存在显著差异,导致预训练语言模型对它们的建模效果不如随机初始化模型,并且图像文本数据集中的文本标记与正常语言模型预训练数据相比过于简单,导致语言模型能力的灾难性降低。
Nov, 2023
我们提出了使用扩散过程模型每个令牌的概率分布,从而可以将自回归模型应用于连续值空间的方法,并通过定义扩散损失函数来替代离散化的令牌化。通过消除向量量化,我们的图像生成器在享受序列建模的速度优势的同时取得了强大的结果,并希望该方法能促进在其他连续值领域和应用中使用自回归生成。
Jun, 2024
提出使用离散表示图像的方法,可以让基于自回归的生成模型输出具备更好的大规模连贯性,在 ImageNet 数据集上进行实验,证明了分层条件自回归模型可以在 128×128 和 256×256 的分辨率上生成逼真的图像。
Mar, 2019
基于小波变换的图像分词器提高了训练吞吐量并减少了 ImageNet 验证集的 top-1 误差率,同时为基于 ViT 模型设计提供了新的研究方向。
May, 2024
在这项工作中,我们将基于自我关注机制的模型架构 ——Transformer 模型,泛化到图像生成的序列建模问题上,并通过限制自我关注机制只关注局部邻域,显著提高了模型能够实际处理的图像大小,同时在图像生成方面显著优于当前最优秀的状态,提高了 ImageNet 上最佳公布的负对数似然从 3.83 到 3.77,同时还针对大放大倍数进行了图像超分辨率实验。在人类评估研究中,我们发现,我们超分辨率模型生成的图像比先前的最优模型更能欺骗人类观察者。
Feb, 2018
本论文提出了一种基于离散小波变换的知识蒸馏方法,用于提高小型生成对抗网络在高频信息生成方面的性能,在保证性能无明显下降的情况下,可将模型体积缩小 7.08 倍、加速 6.80 倍,并研究了鉴别器和生成器之间的关系。
Mar, 2022
该文提出了一种基于非线性小波表示的统计方法,其可以用作一层 CNN 的一种实例来提高图像纹理合成的视觉质量。该方法取代了以往经典的小波模型,并在灰度和彩色纹理上达到了与最先进模型相似的视觉效果。
Mar, 2022
本研究提出了一种基于 Haar 小波变换的分块自回归模型,利用分块耦合法,通过对粗糙轨迹条件,精确地对不同时空分辨率下的轨迹进行建模并预测,以提高自主智能体的运行效果。在 Stanford Drone 和 Intersection Drone 两个真实数据集上进行测试,结果表明此模型的生成轨迹精准度和可变性均优于其他条件生成模型。
Sep, 2020