Jan, 2024

文本扩散模型的迁移学习

TL;DR我们研究了文本扩散能否替代自回归(AR)解码用于大型语言模型(LLMs)的训练和部署,并测试了通过一种轻量级适应过程称为 ``AR2Diff'' 将预训练的 AR 模型转换为文本扩散模型的潜力。我们发现,训练仅具有前缀 LM 目标的解码器模型在多项任务中表现最好。此外,我们还观察到通过 AR2Diff 对 AR 模型进行改进,并发现使用扩散解码的扩散模型比 AR 模型在多种情况下表现出更好的结果。这些结果非常有前景,因为相对未被充分探索的文本扩散比长文本生成的 AR 解码速度更快。