[征稿] 第二届 BabyLM 挑战赛:基于合理发展语料的高效预训练
BabyLM 挑战赛的论文呼吁:在一个发展合理的语料库上进行样本高效的预训练。该挑战赛旨在探索语言建模、人类语言习得、低资源自然语言处理和认知建模等领域。
Jan, 2023
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
Nov, 2023
荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略,我们研究了语境大小、词汇量和数据的总体语言复杂性等方面,发现只有语境大小对训练语言模型有真正的益处。然而,仅仅改变语境大小就让我们在(Super)GLUE 任务上平均提升 2 分,MSGS 任务上提升 1 分,BLiMP 任务平均提升 12%。我们的限制语境模型胜过了使用 10 倍数据训练的基准模型。
Nov, 2023
我们通过三种认知引导的课程学习变体对模型在语言评估任务上的性能进行了分析,并发现在早期训练阶段对词汇、训练实例的顺序和目标任务进行合理选择可以达到一定的改进效果。
Nov, 2023
我们提交了阿姆斯特丹大学 ILLC 的研究报告到 BabyLM 挑战赛,介绍了我们最终模型 ChapGTP 在三个评估套件上的性能和一系列未包含在模型中的方法,这些方法可能对低资源情景中的 LM 训练有所启发。
Oct, 2023
2023 年多语言演讲通用性能基准(ML-SUPERB)挑战扩展了备受赞誉的 SUPERB 框架,强调自监督模型在多语音识别和语言识别中的应用。挑战包括一个研究轨道,重点是将 ML-SUPERB 应用于特定的多语言主题,一个挑战轨道,用于模型提交,以及一个新语言轨道,在这个轨道上,语言资源研究人员可以贡献和评估他们的低资源语言数据,以适应多语音识别的最新进展。研究结果表明,仅仅提高模型规模并非多语音任务的终极解决方案,多种语音 / 语调类型在多语音处理中存在重大挑战。
Oct, 2023
在这篇文章中,我们描述了我们在 2023 年 BabyLM 挑战赛上对数据高效的语言模型(LM)预训练的提交。我们使用结构型语言模型架构以及其变种,将有关层次化句子结构的无监督预测纳入模型架构中,并在 39 个 BabyLM 挑战赛提供的任务上进行了评估,结果显示在某些特定任务上,将层次化偏差整合到架构中的模型表现出有希望的改进,尽管它们未能在所有任务上始终超过挑战赛组织者提供的 RoBERTa 基准模型。
Oct, 2023
通过引入 CT-LLM,这项研究介绍了一个 2B 规模的大型语言模型(LLM),以优先考虑中文语言的发展。这项研究挑战了在英文语料库上培训 LLMs 并将其适应其他语言的常规模式,为 LLM 培训方法学的拓宽开创了新的可能性。
Apr, 2024
通过使用 CoThought 流水线,我们可以有效地训练较小的 BabyLM 语言模型,从而利用 LLMs 的上下文学习能力,将小于 100M 的数据集转变为适用于语言学习者的任务导向的可读文本,经 RoBERTa 的预训练后,BabyLM 在多项语言学、NLU 和问答任务中表现优越,超过 RoBERTa-base 的性能 3 个点以上,显示出更好的上下文信息提取能力。
Aug, 2023
我们提出 Lil-Bevo,作为 BabyLM Challenge 的参赛作品。我们使用三种方法对我们的掩码语言模型进行了预训练:使用音乐数据进行初始预训练,先对较短的序列进行训练再逐步增加序列长度,以及对特定令牌进行屏蔽以针对 BLiMP 的一些子任务。总体上,我们的基准模型的表现超过了随机猜测,但远低于训练于更多数据上的较大规模语言模型的性能水平。我们发现训练较短的序列比训练较长的序列效果更好。预训练音乐可能在一定程度上提高性能,但如果确实有影响,则影响似乎很小。我们针对性的掩码语言建模增强在一般情况下似乎并没有提高模型性能,但在一些特定的 BLiMP 任务上确实有帮助(如负极性项)。在少量数据上训练性能良好的语言模型是一项困难但有潜力的任务。虽然我们的一些技术显示出一些希望,但仍需要进一步研究以探索它们是否能带来比目前更为显著的性能提升。我们的代码可在此链接中获取,模型可在此链接中获取。
Oct, 2023