扩展极限语言模型、数据和任务规模可有效地使扩散式语言模型成为强大的语言学习者,并且通过指令调优可以实现零射击和小批量上下文学习能力。
Aug, 2023
我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
该研究基于算法改进和计算资源扩展来提升扩散式语言模型,成功构建了一款表现优于已有模型的大规模扩散语言模型 Plaid 1B。
May, 2023
提出了基于提示分布学习的方法,从而通过有效地适应先前训练的视觉 - 语言模型来处理下游的识别任务,该方法不仅从少量样本中学习低偏差的提示,而且还捕获多种提示的分布以处理不同的视觉表示。
May, 2022
本研究提出了一种基于连续扩散的非自回归语言模型 Diffusion-LM,在语言生成的过程中能够通过简单的基于梯度的算法实现复杂的可控生成任务,并成功地应用在六个难度较大的细粒度控制任务之中,表现出优秀的性能。
论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法,从流畅性和忠实度的角度引导模型生成具有连接性的短语,实验结果表明,该方法可以显著提高翻译质量。
Nov, 2019
使用自我蒸馏微调(SDFT)方法,本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距,解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战,并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时,在下游任务上实现了与传统微调相当或更优的性能,并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。
Feb, 2024
介绍了一种新的语言建模扩散模型 Masked-Diffuse LM,通过语言学特征和软掩蔽添加文本失真,通过交叉熵损失函数在每个扩散步骤中直接预测分类分布,以更高效和直接的方式连接连续空间和离散空间,优于目前最先进的扩散模型。
Apr, 2023
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022
本文研究人工智能与人类合作生成高质量的大语言模型数据,使用两种方法促进文本生成的多样性和准确性,探究人类干预的效果并发现标签替换有助于提高模型的准确性,但移除超出用户领域兴趣或没有适当标签的实例不能提高模型准确性,需要更多人机协作探索。
Jun, 2023