ICLRApr, 2024

基于结构扩散和白盒变换器的遮蔽完成

TL;DR现代学习框架经常使用大量未标记数据来训练深度神经网络,通过解决简单的先验任务学习表示,并将这些表示用作下游任务的基础。本论文提出了第一个可以应用于大规模无监督表示学习的白盒设计范式,通过利用扩散、压缩和(掩码)补全之间的基本连接,导出了一种名为 CRATE-MAE 的深度变换器样式的掩码自编码器架构,其每个层的角色在数学上具有完全解释性:它们将数据分布转换为结构化表示并从中恢复。广泛的实证评估证实了我们的分析洞见。CRATE-MAE 在大规模图像数据集上表现出高度有希望的性能,而仅使用与相同模型配置的标准掩码自编码器相比,参数仅占 30%。CRATE-MAE 学习到的表示具有显式结构,同时包含语义含义。