民主化扩散语言模型
提出了 XDLM,一种新颖的用于机器翻译的跨语言扩散模型,包括预训练和微调阶段。在预训练阶段,提出了 TLDM,用于掌握不同语言之间的映射关系;在微调阶段,基于预训练模型构建了翻译系统,并在多个机器翻译基准测试中优于扩散模型和 Transformer 基线。
Jul, 2023
介绍了一种新的语言建模扩散模型 Masked-Diffuse LM,通过语言学特征和软掩蔽添加文本失真,通过交叉熵损失函数在每个扩散步骤中直接预测分类分布,以更高效和直接的方式连接连续空间和离散空间,优于目前最先进的扩散模型。
Apr, 2023
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022
该研究介绍了扩散蛋白质语言模型(DPLM),一种多功能的蛋白质语言模型,展示了对蛋白质序列具有强大的生成和预测能力。通过生成自监督离散扩散概率框架对进化规模的蛋白质序列进行可扩展的 DPLM 预训练,使 DPLM 展现出无条件生成结构合理、新颖且多样的蛋白质序列的能力。此外,DPLM 通过生成预训练使得其对蛋白质具有更好的理解,成为一种优秀的表示学习器,可以根据不同的预测任务进行微调,与 ESM2(Lin et al.,2022)相比具有较好的效果。此外,DPLM 可以根据需求进行定制,通过几种方式展示其条件生成的能力:(1)以部分肽段序列为条件,例如高成功率生成功能基序的脚手架;(2)以其他模态为条件,例如结构条件生成逆折叠;以及(3)通过插入式分类器指导将序列生成导向所需的属性,例如满足指定的二级结构。
Feb, 2024
本研究提出了一种基于连续扩散的非自回归语言模型 Diffusion-LM,在语言生成的过程中能够通过简单的基于梯度的算法实现复杂的可控生成任务,并成功地应用在六个难度较大的细粒度控制任务之中,表现出优秀的性能。
May, 2022
通过研究和提出 Diffusion-based language models 的新方法,我们成功将 SSD-LM 模型从 0.4B 扩展至 13B 参数,同时提高了其训练和推断的效率,并能够根据指令进行微调,与自回归 LM 相比,Diffusion-based language models 在双向上下文方面的合作更加有效,从而提高了模型响应的质量和相关性。
May, 2023
利用 Thinker 和 Drift-Diffusion 模型重新定义漂移扩散过程来模拟人类翻译者在受限资源下的动态决策制定,通过对 WMT22 和 CommonMT 数据集进行广泛实验,发现 Thinker-DDM 在高资源和低资源翻译设置中表现优于基线模型,并对常识翻译进行额外分析和评估,证明了所提出方法的高效性和有效性。
Feb, 2024