CLIMB:婴儿启发式模型构建的课程学习
本研究探讨了使用语言学课程学习法对语言模型预训练的效果,并且在 GLUE 基准测试中评估了转移性能,结果显示我们并未找到令人信服的证据表明课程学习方法可以改善语言模型训练。
Aug, 2021
通过应用一种专门的学习策略,课程学习旨在提高学习者在给定任务上的表现,可以关注数据集、任务或模型。然而,在自然语言处理中,关于在模型容量上应用课程学习的研究还很少。为了弥补这一空白,我们提出了杯子课程学习方法。在训练的第一阶段,我们采用了迭代型挤压零重来减少模型容量。这些权重在第二阶段重新引入,导致模型容量在训练迭代中出现杯状曲线。我们经验性地评估了杯子课程学习的不同策略,并证明它在可靠性上优于早期停止,同时对过拟合表现出很高的韧性。
Nov, 2023
使用神经语言模型对人类行为进行建模在研究中获得了不同的结果。本文通过在 BabyLM 挑战中使用更贴近发展的数据集来探索实证数据和模型预测行为之间的不匹配程度。通过对 BabyLM 的数据集进行师生训练和课程设计,研究发现,虽然这种改进使得模型更容易从训练数据中获取语言知识,但并未导致模型对人类阅读行为的预测与之更加一致,这表明仅仅在发展上合理的数据集上训练模型可能不足以准确预测人类语言处理。
Nov, 2023
通过分析多个基准 NLP 数据集,我们的课程学习方法识别到了一系列语言度量(指标),这些指标揭示了每个任务所需的挑战和推理,从而使得我们的工作在所有 NLP 领域中提供了未来研究的参考,并且在研究开发过程中早期考虑了语言复杂性。此外,我们的工作促使 NLP 领域对黄金标准和公平评估进行审视。
Oct, 2023
荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略,我们研究了语境大小、词汇量和数据的总体语言复杂性等方面,发现只有语境大小对训练语言模型有真正的益处。然而,仅仅改变语境大小就让我们在(Super)GLUE 任务上平均提升 2 分,MSGS 任务上提升 1 分,BLiMP 任务平均提升 12%。我们的限制语境模型胜过了使用 10 倍数据训练的基准模型。
Nov, 2023
提出了一种用于大型语言模型预训练的不可约课程算法,通过模拟训练轨迹中的样本损失,以提高学习性,实验证明在各个领域中都能提高验证困惑度,并且降低网络的尖锐度,在 MMLU 基准上表现出更好的 5-shot 准确度。
Oct, 2023
BabyLM 挑战赛的论文呼吁:在一个发展合理的语料库上进行样本高效的预训练。该挑战赛旨在探索语言建模、人类语言习得、低资源自然语言处理和认知建模等领域。
Jan, 2023
本文介绍一种新的 NLI 基准 Curriculum,其中包括 36 种广泛涵盖的语言现象的数据集和评估程序,证明这种以语言现象驱动的基准在诊断模型行为和验证模型学习质量方面具有有效性,同时为未来对数据集的重新设计、模型架构和学习目标的研究提供了启示和借鉴。
Apr, 2022
通过对最近的课程学习方法进行复制与扩展,研究发现在自然语言处理领域中,当课程与流行的 Adam 优化算法结合时,它们常常学习如何适应选择不佳的优化参数,从而导致结果异常脆弱,进而说明了为何课程学习方法在该领域的效果有限。
Aug, 2023