高效训练语言模型以填充中间部分

Jul, 2022

高效训练语言模型以填充中间部分

Efficient Training of Language Models to Fill in the Middle

Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey...

TL;DR通过在数据集中间将文本移动到末尾后，自回归语言模型可以学习填补文本，进行数据增强不会影响原始的生成性能，因此我们建议未来应默认使用填补法来训练自回归语言模型，我们通过对关键超参数的剖析，制定了强有力的默认设置和最佳实践。

Abstract

We show that autoregressive language models can learn to infill text after we apply a straightforward transformation to the dataset, which simply moves a span of text from the middle of a document to its end. While this data augmentation has garnered much interest in recent years, we p

autoregressive language models data augmentation fill-in-the-middle training models infilling benchmarks

发现论文，激发创造

让语言模型填充空白

本文提出一种名为 Infilling by Language Modeling 的文本补全方法，它采用了一个预训练的语言模型来预测文档中的任意位置缺失的文本，并在短篇小说、科学摘要和歌词三种不同领域有效地补全整个句子。研究结果显示，采用这种方法补全的句子很难被人识别为机器生成，适用于辅助写作工具。

May, 2020

FiLM: 填充语言模型的任意顺序生成

基于 Fill-in Language Model (FiLM) 的研究在语言模型中引入双向上下文，使其具备在任意位置灵活生成文本的能力，并通过采样自 Beta 分布的变化掩码概率来提升其生成能力。在自动和人工评估中，FiLM 优于现有的依赖于按照从左到右训练的文本段落重新排列的插入方法。FiLM 易于实现，可以从头开始训练，或从左到右的语言模型进行微调。与类似规模的强左到右语言模型相比，FiLM 的困惑度随着模型规模的增加逐渐接近，显示了其可扩展性和作为大型语言模型的潜力。

Oct, 2023

文本填充

本文研究了文本生成和填充相关的问题，设计并实现了一种基于自注意力和双向上下文建模的模型，并通过有监督的学习方法进行了实验验证。结果表明，该模型在文本填充任务上表现出色，为未来的相关研究提供了强有力的基线。

Jan, 2019

GLM: 基于自回归空白填充的通用语言模型预训练

本文提出了一种基于自回归的空白填充预训练方法称为 GLM，该方法通过添加 2D 位置编码和允许任意顺序来预测跨度来改进填空预训练。实验证明 GLM 在自然语言理解、有条件和无条件生成任务上的性能表现要好于 BERT、T5 和 GPT，预训练时还可以将空白的数量和长度改变以适应不同的任务类型。

Mar, 2021

自我补充代码生成

本研究提出了一个融合自动回归解码的填充操作的通用代码生成框架，利用自我填充的特性实现非单调生成，提高对生成序列的控制，促进循环更新和同步，通过大量实验证明了我们提出的解码过程在提高代码生成质量和规则性方面的有效性。

Nov, 2023

评估 LLMs 在句法感知的代码填充任务中的表现

我们引入了 Syntax-Aware Fill-In-the-Middle (SAFIM)，这是一个新的基准，用于评估大型语言模型 (LLMs) 在代码填充任务中的性能。该基准集中在对程序结构进行语法感知的补全，如代码块和条件表达式，并包括来自多种编程语言的 17,720 个示例，这些示例源自近期的代码提交，旨在最小化数据污染。SAFIM 提供了一个强大的框架，具有各种提示设计和新颖的语法感知后处理技术，有助于在 LLMs 之间进行准确和公平的比较。我们对 15 个 LLMs 的全面评估表明，FIM 预训练不仅增强了 FIM 的能力，还改善了利用 LLMs 进行从左到右 (L2R) 推理的性能。我们的发现挑战了传统信念，并表明预训练方法和数据质量比模型规模更具影响力。因此，SAFIM 成为未来在代码 LLMs 的有效预训练策略方面的研究基础平台。评估工具包和数据集可在此 https URL 获得，排行榜可在此 https URL 获得。

Mar, 2024

中途相遇：一种新的预训练范式

本文提出了一种新的预训练范例，采用双向推理和训练效率优化技术，以提高语言模型在数据填充任务中的能力并展开大量编程和自然语言实验取得优异成果。

Mar, 2023

迭代掩码填充：一种使用掩码语言建模的有效文本增强方法

我们提出了一种利用基于变压器的 BERT 模型的填充掩码特性的新型文本增强方法，该方法在句子中迭代遮盖单词并使用语言模型预测替换它们。我们在各种 NLP 任务上测试了我们提出的方法，并发现它在许多情况下都是有效的。我们将我们的结果与现有的增强方法进行了比较，并实验结果表明我们提出的方法显著提高了性能，尤其是在主题分类数据集上。

Jan, 2024

INSET: 使用 Inter-SEntential Transformer 进行句子填充

本文提出了一个基于 BERT 和 GPT-2 的框架，通过将缺失句子生成任务拆分成三个方面的处理来解决此问题 —— 语义理解，篇章规划和生成，并在实验证明了我们的模型在学习句子表示和生成缺失句子方面的有效性。

Nov, 2019

将句子嵌入融合到基于 LSTM 的自回归语言模型中

本研究提出了一种基于 LSTM 的自回归语言模型，使用预训练的掩码语言模型的前缀嵌入（通过融合，例如串联）来获得更丰富的上下文表示来进行语言建模，发现融合有助于可靠地降低复杂度，最后还讨论了这种方法在其他领域的推广。

Aug, 2022