CVPRMay, 2023

利用频率增广变分自编码器进行图像重建

TL;DR本文提出了一种用于增强 VQ-VAE 结构的频率补全模块 (Frequency Complement Module, FCM),并且引入了一种动态频谱损失 (Dynamic Spectrum Loss, DSL),用于引导 FCM 动态地平衡频率以获得最佳重建。FA-VAE 进一步扩展到了文本到图像合成任务中,并提出了交叉注意力自回归变换器 (Cross-attention Autoregressive Transformer, CAT) 以获得更精确的文本语义属性。通过在几个基准数据集上进行广泛的重建实验,并与其它最先进的方法进行比较,结果表明,所提出的 FA-VAE 能够更忠实地恢复细节。CAT 在图像文本语义对齐方面也显示出了更好的生成质量。