强制语言模型排除扩散分布

Apr, 2024

Forcing Diffuse Distributions out of Language Models

Yiming Zhang, Avi Schwarzschild, Nicholas Carlini, Zico Kolter, Daphne Ippolito

TL;DR今天的语言模型在随机输出方面表现不佳，本文提出了一种微调方法，鼓励语言模型产生分散的输出分布，使大型语言模型在合成数据集生成方面变得更实用。

Abstract

Despite being trained specifically to follow user instructions, today's language models perform poorly when instructed to produce random outputs. For example, when prompted to pick a number uniformly between one

language models random outputs diverse distributions fine-tuning method synthetic dataset generation

发现论文，激发创造

扩散语言模型：随着规模和指导微调可执行多种任务

扩展极限语言模型、数据和任务规模可有效地使扩散式语言模型成为强大的语言学习者，并且通过指令调优可以实现零射击和小批量上下文学习能力。

Aug, 2023

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022

基于似然的扩散语言模型

该研究基于算法改进和计算资源扩展来提升扩散式语言模型，成功构建了一款表现优于已有模型的大规模扩散语言模型 Plaid 1B。

May, 2023

分布式学习

提出了基于提示分布学习的方法，从而通过有效地适应先前训练的视觉 - 语言模型来处理下游的识别任务，该方法不仅从少量样本中学习低偏差的提示，而且还捕获多种提示的分布以处理不同的视觉表示。

May, 2022

Diffusion-LM 提升可控文本生成能力

本研究提出了一种基于连续扩散的非自回归语言模型 Diffusion-LM，在语言生成的过程中能够通过简单的基于梯度的算法实现复杂的可控生成任务，并成功地应用在六个难度较大的细粒度控制任务之中，表现出优秀的性能。

May, 2022

多元神经机器翻译的流畅性和忠实度建模

论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法，从流畅性和忠实度的角度引导模型生成具有连接性的短语，实验结果表明，该方法可以显著提高翻译质量。

Nov, 2019

自我蒸馏：填补语言模型微调中的分布差距

使用自我蒸馏微调（SDFT）方法，本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距，解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战，并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时，在下游任务上实现了与传统微调相当或更优的性能，并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。

Feb, 2024

使用软屏蔽噪声的更便宜、更好的扩散语言模型

介绍了一种新的语言建模扩散模型 Masked-Diffuse LM，通过语言学特征和软掩蔽添加文本失真，通过交叉熵损失函数在每个扩散步骤中直接预测分类分布，以更高效和直接的方式连接连续空间和离散空间，优于目前最先进的扩散模型。

Apr, 2023

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

利用大语言模型和人工干预进行文本数据生成以增加多样性并维持准确性

本文研究人工智能与人类合作生成高质量的大语言模型数据，使用两种方法促进文本生成的多样性和准确性，探究人类干预的效果并发现标签替换有助于提高模型的准确性，但移除超出用户领域兴趣或没有适当标签的实例不能提高模型准确性，需要更多人机协作探索。

Jun, 2023