使用类人开发数据文集预训练 LLMs

Nov, 2023

使用类人开发数据文集预训练 LLMs

Pre-training LLMs using human-like development data corpus

Khushi Bhardwaj, Raj Sanjay Shah, Sashank Varma

TL;DR利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Abstract

pre-trained large language models (llms) have shown success in a diverse set of language inference and understanding tasks. The pre-training stag

pre-trained large language models llms pre-training stage contextual word representations roberta baseline

发现论文，激发创造

The BabyLM Challenge: 基于发展合理语料库的样本高效预训练

BabyLM 挑战赛的论文呼吁：在一个发展合理的语料库上进行样本高效的预训练。该挑战赛旨在探索语言建模、人类语言习得、低资源自然语言处理和认知建模等领域。

Jan, 2023

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023

婴儿的共认识：利用大型语言模型提升小型模型的推理能力

通过使用 CoThought 流水线，我们可以有效地训练较小的 BabyLM 语言模型，从而利用 LLMs 的上下文学习能力，将小于 100M 的数据集转变为适用于语言学习者的任务导向的可读文本，经 RoBERTa 的预训练后，BabyLM 在多项语言学、NLU 和问答任务中表现优越，超过 RoBERTa-base 的性能 3 个点以上，显示出更好的上下文信息提取能力。

Aug, 2023

面向自然语言处理的预训练表征的高效主动学习

通过在主动学习循环中使用预训练的大型语言模型的表示，然后在获得所需标记数据后，对这些数据进行微调，从而以较低的计算成本实现与将完全微调的模型相似的性能。

Feb, 2024

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

使用人类偏好进行语言模型预训练

通过在预训练中引入人类的反馈，实现对于语言模型的生成文本的可控和可导向性，减少哪些偏离人类喜好的内容的生成，并且在标准的预训练和任务特定的微调中保持下游任务表现。推荐在训练开始时，就结合人类反馈，不再使用模仿学习的方式预训练语言模型。

Feb, 2023

从零开始预训练轻量级大型语言模型 MindLLM: 评估与领域应用

MindLLM 是一系列双语轻量级大型语言模型，通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验，并介绍了适用于较小模型的创新指令调整框架，同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。

Oct, 2023

用较少的令牌预训练小型基础语言模型

我们研究了使用继承和训练的简单方法来构建小型基础语言模型的有效性，并通过实验证明其在各种设置中的功效。

Apr, 2024

大型语言模型除语言外还能学到什么？

本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验，包括量化计算、识别正则表达式和对字符串的推理，我们发现预先训练的模型明显优于可比较的非预先训练的神经模型，即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时，我们进一步探讨了不同文本领域对用户体验的影响，并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下，也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。

Oct, 2022

大型语言模型是否能理解上下文？

理解上下文是理解人类语言的关键，本论文介绍了一个上下文理解基准，通过适应现有数据集来评估生成模型的能力，并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。

Feb, 2024