Jun, 2024

离散数据的简化和推广掩码扩散

TL;DR掩蔽扩散模型是生成离散数据的自回归模型的替代选择,本论文提出了一个简单且通用的框架,解锁了掩蔽扩散模型的全部潜力,并在 OpenWebText 数据集上训练的模型在困惑度上超过了 GPT-2 模型,并在 5 个零 - shot 语言建模任务中展现出卓越性能,在像素级图像建模中也超过了之前的离散扩散模型。