民主化扩散语言模型

May, 2023

Democratized Diffusion Language Model

Nikita Balagansky, Daniil Gavrilov

TL;DR本文旨在提出一种去中心化的扩散语言模型（DDLM），该模型基于连续性扩散的范畴数据（CDCD）框架，使用 C4 数据集进行简化的培训过程，并提出一种新颖的早期退出策略，通过 GLUE 基准研究 DDLM 的知识转移能力。

Abstract

Despite the potential benefits of diffusion models for nlp applications, publicly available implementations, trained models, or reproducible training procedures currently need to be publicly available. We present

diffusion models nlp applications ddlm training procedure glue benchmark

发现论文，激发创造

XDLM：跨语言扩散语言模型用于机器翻译

提出了 XDLM，一种新颖的用于机器翻译的跨语言扩散模型，包括预训练和微调阶段。在预训练阶段，提出了 TLDM，用于掌握不同语言之间的映射关系；在微调阶段，基于预训练模型构建了翻译系统，并在多个机器翻译基准测试中优于扩散模型和 Transformer 基线。

Jul, 2023

使用软屏蔽噪声的更便宜、更好的扩散语言模型

介绍了一种新的语言建模扩散模型 Masked-Diffuse LM，通过语言学特征和软掩蔽添加文本失真，通过交叉熵损失函数在每个扩散步骤中直接预测分类分布，以更高效和直接的方式连接连续空间和离散空间，优于目前最先进的扩散模型。

Apr, 2023

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

扩散语言模型是多功能的蛋白质学习器

该研究介绍了扩散蛋白质语言模型（DPLM），一种多功能的蛋白质语言模型，展示了对蛋白质序列具有强大的生成和预测能力。通过生成自监督离散扩散概率框架对进化规模的蛋白质序列进行可扩展的 DPLM 预训练，使 DPLM 展现出无条件生成结构合理、新颖且多样的蛋白质序列的能力。此外，DPLM 通过生成预训练使得其对蛋白质具有更好的理解，成为一种优秀的表示学习器，可以根据不同的预测任务进行微调，与 ESM2（Lin et al.，2022）相比具有较好的效果。此外，DPLM 可以根据需求进行定制，通过几种方式展示其条件生成的能力：（1）以部分肽段序列为条件，例如高成功率生成功能基序的脚手架；（2）以其他模态为条件，例如结构条件生成逆折叠；以及（3）通过插入式分类器指导将序列生成导向所需的属性，例如满足指定的二级结构。

Feb, 2024

Diffusion-LM 提升可控文本生成能力

本研究提出了一种基于连续扩散的非自回归语言模型 Diffusion-LM，在语言生成的过程中能够通过简单的基于梯度的算法实现复杂的可控生成任务，并成功地应用在六个难度较大的细粒度控制任务之中，表现出优秀的性能。

May, 2022

类别数据的连续扩散

本文介绍了 CDCD 框架，该框架是一种对分类数据进行扩散建模的方法，同时保持了连续时间和输入空间的特性，并在多个语言建模任务中证明了其有效性。

Nov, 2022

SSD-2: 扩展和推断时间融合的扩散语言模型

通过研究和提出 Diffusion-based language models 的新方法，我们成功将 SSD-LM 模型从 0.4B 扩展至 13B 参数，同时提高了其训练和推断的效率，并能够根据指令进行微调，与自回归 LM 相比，Diffusion-based language models 在双向上下文方面的合作更加有效，从而提高了模型响应的质量和相关性。

May, 2023

重新思考人类化翻译策略：将漂移扩散模型与大型语言模型整合用于机器翻译

利用 Thinker 和 Drift-Diffusion 模型重新定义漂移扩散过程来模拟人类翻译者在受限资源下的动态决策制定，通过对 WMT22 和 CommonMT 数据集进行广泛实验，发现 Thinker-DDM 在高资源和低资源翻译设置中表现优于基线模型，并对常识翻译进行额外分析和评估，证明了所提出方法的高效性和有效性。

Feb, 2024

基于似然的扩散语言模型

该研究基于算法改进和计算资源扩展来提升扩散式语言模型，成功构建了一款表现优于已有模型的大规模扩散语言模型 Plaid 1B。

May, 2023

扩散语言模型：随着规模和指导微调可执行多种任务

扩展极限语言模型、数据和任务规模可有效地使扩散式语言模型成为强大的语言学习者，并且通过指令调优可以实现零射击和小批量上下文学习能力。

Aug, 2023