ChapGPT, ILLC 尝试培育 BabyLM：通过自动任务形成提高数据效率

Oct, 2023

ChapGPT, ILLC 尝试培育 BabyLM：通过自动任务形成提高数据效率

ChapGTP, ILLC's Attempt at Raising a BabyLM: Improving Data Efficiency by Automatic Task Formation

Jaap Jumelet, Michael Hanna, Marianne de Heer Kloots, Anna Langedijk, Charlotte Pouw...

TL;DR我们提交了阿姆斯特丹大学 ILLC 的研究报告到 BabyLM 挑战赛，介绍了我们最终模型 ChapGTP 在三个评估套件上的性能和一系列未包含在模型中的方法，这些方法可能对低资源情景中的 LM 训练有所启发。

Abstract

We present the submission of the ILLC at the University of Amsterdam to the babylm challenge (Warstadt et al., 2023), in the strict-small track. Our final model, →

submission babylm challenge chapgtp performance low-resource settings

发现论文，激发创造

信息过载：为 BabyLMs 保持简单的训练

荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略，我们研究了语境大小、词汇量和数据的总体语言复杂性等方面，发现只有语境大小对训练语言模型有真正的益处。然而，仅仅改变语境大小就让我们在（Super）GLUE 任务上平均提升 2 分，MSGS 任务上提升 1 分，BLiMP 任务平均提升 12%。我们的限制语境模型胜过了使用 10 倍数据训练的基准模型。

Nov, 2023

The BabyLM Challenge: 基于发展合理语料库的样本高效预训练

BabyLM 挑战赛的论文呼吁：在一个发展合理的语料库上进行样本高效的预训练。该挑战赛旨在探索语言建模、人类语言习得、低资源自然语言处理和认知建模等领域。

Jan, 2023

婴儿的共认识：利用大型语言模型提升小型模型的推理能力

通过使用 CoThought 流水线，我们可以有效地训练较小的 BabyLM 语言模型，从而利用 LLMs 的上下文学习能力，将小于 100M 的数据集转变为适用于语言学习者的任务导向的可读文本，经 RoBERTa 的预训练后，BabyLM 在多项语言学、NLU 和问答任务中表现优越，超过 RoBERTa-base 的性能 3 个点以上，显示出更好的上下文信息提取能力。

Aug, 2023

婴儿骆驼：从小数据集上训练的教师集合中进行知识蒸馏，无性能惩罚

我们提出了一种解决 BabyLM 挑战的方法，目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型，然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型，它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明，蒸馏不仅可以保持教师模型的全部性能，在后者被训练在足够小的数据集上时，还可以超过教师模型的性能，并且比直接训练要表现得更好。

Aug, 2023

通过隐式结构建立提高认知启发型数据有效语言模型的性能

在这篇文章中，我们描述了我们在 2023 年 BabyLM 挑战赛上对数据高效的语言模型（LM）预训练的提交。我们使用结构型语言模型架构以及其变种，将有关层次化句子结构的无监督预测纳入模型架构中，并在 39 个 BabyLM 挑战赛提供的任务上进行了评估，结果显示在某些特定任务上，将层次化偏差整合到架构中的模型表现出有希望的改进，尽管它们未能在所有任务上始终超过挑战赛组织者提供的 RoBERTa 基准模型。

Oct, 2023

Lil-Bevo: 以更接近人类的方式训练语言模型的策略探索

我们提出 Lil-Bevo，作为 BabyLM Challenge 的参赛作品。我们使用三种方法对我们的掩码语言模型进行了预训练：使用音乐数据进行初始预训练，先对较短的序列进行训练再逐步增加序列长度，以及对特定令牌进行屏蔽以针对 BLiMP 的一些子任务。总体上，我们的基准模型的表现超过了随机猜测，但远低于训练于更多数据上的较大规模语言模型的性能水平。我们发现训练较短的序列比训练较长的序列效果更好。预训练音乐可能在一定程度上提高性能，但如果确实有影响，则影响似乎很小。我们针对性的掩码语言建模增强在一般情况下似乎并没有提高模型性能，但在一些特定的 BLiMP 任务上确实有帮助（如负极性项）。在少量数据上训练性能良好的语言模型是一项困难但有潜力的任务。虽然我们的一些技术显示出一些希望，但仍需要进一步研究以探索它们是否能带来比目前更为显著的性能提升。我们的代码可在此链接中获取，模型可在此链接中获取。

Oct, 2023

大型 GPT 模型的问题：深入研究语言能力与心理语言学度量之间的关系

通过训练不同大小的 GPT-like 语言模型并在挑战任务（BLiMP，GLUE，MSGS）和阅读时预测任务上进行评估，我们发现 LM 大小与所有三个挑战任务的性能呈正相关，而在使用 LM 意外性作为预测变量的线性混合效应模型的阅读时间拟合上，发现 LM 大小呈负相关。这表明，模拟处理的努力和语言能力可能需要与在发展上合理的语料库上训练 GPT-like 语言模型有所不同的方法。

Nov, 2023

针对特定场景的 LLaMa 多任务指令调节：一项关于写作辅助的初步研究

本文研究了使用指令驱动数据 fine-tune 的 LLMa 模型在写作场景下的性能，结果表明持续地使用写作数据对 LLMa 进行微调，可以显著提高它在写作任务上的表现，并为未来 LlMa 在特定场景中的微调提供了洞见。

May, 2023

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

LLM2LLM：利用新的迭代数据增强提升 LLM 模型

使用以预训练大型语言模型（LLM）为基础的 LLM2LLM 方法，通过数据增强和迭代，显著提高 LLM 在低数据情况下的性能，优于传统的微调和其他数据增强方法，减少了对数据策划的依赖，为更可扩展和高性能的 LLM 解决方案铺平了道路。

Mar, 2024