ICLROct, 2021

文盲 DALL-E 学习创作

TL;DR本文介绍了一种结合了 DALL-E 的构成性和 Slot Attention 模型的目标 - 中心表示模型的自动编码架构,名为 SLATE,可以在没有文本的情况下进行系统化的泛化,该模型基于 Image GPT 解码器,可以用于处理图像,实验结果表明,相较于混合解码器模型,该模型在内态和外态图像生成方面有着显著提高,并且具有与混合解码器模型相当或更好的感知机制结构。