The BabyLM Challenge: 基于发展合理语料库的样本高效预训练
2024/2025 BabyLM Challenge 重新举办,新规则包括 paper track,relaxing pretraining data 规则,引入 multimodal vision-and-language track,提供详细规则、时间表和 FAQ。
Apr, 2024
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
Nov, 2023
我们通过三种认知引导的课程学习变体对模型在语言评估任务上的性能进行了分析,并发现在早期训练阶段对词汇、训练实例的顺序和目标任务进行合理选择可以达到一定的改进效果。
Nov, 2023
荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略,我们研究了语境大小、词汇量和数据的总体语言复杂性等方面,发现只有语境大小对训练语言模型有真正的益处。然而,仅仅改变语境大小就让我们在(Super)GLUE 任务上平均提升 2 分,MSGS 任务上提升 1 分,BLiMP 任务平均提升 12%。我们的限制语境模型胜过了使用 10 倍数据训练的基准模型。
Nov, 2023
本文介绍了一种适用于语言习得的基准测试方法,该方法可以在词汇和句法水平上测试口语识别模型的能力,旨在进一步深入理解婴儿学习语言的过程以及使自监督学习技术能够充分发挥潜力,同时还需要克服文本和语音之间以及清晰语音和野外语音之间的差距。
Jun, 2023
通过使用 CoThought 流水线,我们可以有效地训练较小的 BabyLM 语言模型,从而利用 LLMs 的上下文学习能力,将小于 100M 的数据集转变为适用于语言学习者的任务导向的可读文本,经 RoBERTa 的预训练后,BabyLM 在多项语言学、NLU 和问答任务中表现优越,超过 RoBERTa-base 的性能 3 个点以上,显示出更好的上下文信息提取能力。
Aug, 2023
在这篇论文中,我们研究了双语背景儿童如何通过与父母和教师的互动重新获得他们的传统语言,并将这一洞见应用于小规模语言模型的学习中。我们介绍了 BAMBINO-LM,这是一种连续预训练策略,结合了来自父母意大利语模型的交替和基于 PPO 的困惑奖励。在英语和意大利语的零样本分类任务上评估后,BAMBINO-LM 提高了 BabyLM 基线模型的意大利语能力。我们的消融分析表明,采用交替策略和基于 PPO 的建模是实现这一效果增益的关键。我们还表明,作为副作用,所提出的方法会导致与人类儿童在等效学习场景中可能遇到的 L1 效果下降类似的效果。
Jun, 2024
在这篇文章中,我们描述了我们在 2023 年 BabyLM 挑战赛上对数据高效的语言模型(LM)预训练的提交。我们使用结构型语言模型架构以及其变种,将有关层次化句子结构的无监督预测纳入模型架构中,并在 39 个 BabyLM 挑战赛提供的任务上进行了评估,结果显示在某些特定任务上,将层次化偏差整合到架构中的模型表现出有希望的改进,尽管它们未能在所有任务上始终超过挑战赛组织者提供的 RoBERTa 基准模型。
Oct, 2023
提出了一种简单而高效的学习框架 TLM, 该框架不依赖于大规模预训练的语言模型,通过使用任务数据作为查询提取一小部分通用语料库,并从头开始联合优化任务目标和语言建模目标,在四个领域的八个分类数据集上实现了与预训练语言模型相当或更好的结果,而将训练 FLOPs 减少了两个数量级。
Nov, 2021
我们提出了一种解决 BabyLM 挑战的方法,目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型,然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型,它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明,蒸馏不仅可以保持教师模型的全部性能,在后者被训练在足够小的数据集上时,还可以超过教师模型的性能,并且比直接训练要表现得更好。
Aug, 2023