图像局部自回归变压器
在这项工作中,我们将基于自我关注机制的模型架构 ——Transformer 模型,泛化到图像生成的序列建模问题上,并通过限制自我关注机制只关注局部邻域,显著提高了模型能够实际处理的图像大小,同时在图像生成方面显著优于当前最优秀的状态,提高了 ImageNet 上最佳公布的负对数似然从 3.83 到 3.77,同时还针对大放大倍数进行了图像超分辨率实验。在人类评估研究中,我们发现,我们超分辨率模型生成的图像比先前的最优模型更能欺骗人类观察者。
Feb, 2018
BAT-Fill 提出了一种图像修复的新框架,使用了基于 transformers 的双向自回归模型,在考虑到上下文信息的基础上修复缺失或破损的区域,使得修缮后的图片具有更好的内容多样性和视觉效果。
Apr, 2021
提出使用离散表示图像的方法,可以让基于自回归的生成模型输出具备更好的大规模连贯性,在 ImageNet 数据集上进行实验,证明了分层条件自回归模型可以在 128×128 和 256×256 的分辨率上生成逼真的图像。
Mar, 2019
本文提出了一种训练程序,它基于辅助损失函数来控制潜变量所捕获的信息以及留给自回归解码器的信息,该方法可以实现任意强大的自回归解码器,达到具有潜变量的模型中最先进的定量性能,并生成定性令人信服的样本。
Nov, 2017
本研究介绍了一种新的局部自回归翻译机制,将其应用于非自回归翻译模型中,以捕捉目标输出的局部依赖关系。同时,设计出一种高效的合并算法来对齐和合并输出序列。我们在 5 个翻译任务上进行了实证结果,表明相比 CMLM,我们的方法在更少的译码迭代次数下取得了可比或更好的性能,加速了 2.5 倍。进一步的分析表明,我们的方法减少了重复翻译,并且在较长的句子上表现更好。
Nov, 2020
本文提出了一种自监督方法(LT-GAN)来提高生成对抗网络的生成质量和图像多样性,通过估计 GAN 引起的变化,即通过扰动生成器的潜空间引起的生成图像的变换,从而促进了关于潜在变换的语义连贯的图像的合成。实验证明 LT-GAN 在各种数据集上的有效性以及在 CelebA-HQ 和 ImageNet 上改善受控图像编辑方面的帮助。
Oct, 2020
使用 LMConv 实现了生成模型的任意序列生成,可以用于图像完成等任务,在整体图像密度估计(2.89 bdp 无条件 CIFAR10)方面取得了改进的性能,同时实现了全局连贯图像完成。
Jun, 2020
使用基于策略梯度优化的强化对抗学习 (RAL),结合 GAN 启发的对抗损失,实现了图像生成中自回归模型的敌对性学习,提高了生成图像的质量和多样性。该方法在合成和真实数据集上都取得了显著的改善,并在 64*64 图像分辨率上实现了 Celeba 数据集的最优结果。
Jul, 2020
通过提出一种局部感知自编码器及主动学习框架,为解决当前面临的深度伪造检测的泛化问题提供了一条新的途径,可以更加准确地针对伪造区域进行判别,从而提高残缺的检测能力。
Sep, 2019
非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点,与自回归模型相比,其参数规模为 346M,使用一台 V100 GPU 在 1 秒内生成了一张 256×256 像素的高质量图像。
Dec, 2023