语言建模的课程学习

Aug, 2021

Curriculum learning for language modeling

Daniel Campos

TL;DR本研究探讨了使用语言学课程学习法对语言模型预训练的效果，并且在 GLUE 基准测试中评估了转移性能，结果显示我们并未找到令人信服的证据表明课程学习方法可以改善语言模型训练。

Abstract

language models like elmo and bert have provided robust representations of natural language, which serve as the language understanding com

language models elmo bert curriculum learning glue benchmark

发现论文，激发创造

Curriculum: 自然语言理解广覆盖语言现象基准测试

本文介绍一种新的 NLI 基准 Curriculum，其中包括 36 种广泛涵盖的语言现象的数据集和评估程序，证明这种以语言现象驱动的基准在诊断模型行为和验证模型学习质量方面具有有效性，同时为未来对数据集的重新设计、模型架构和学习目标的研究提供了启示和借鉴。

Apr, 2022

CLIMB：婴儿启发式模型构建的课程学习

我们通过三种认知引导的课程学习变体对模型在语言评估任务上的性能进行了分析，并发现在早期训练阶段对词汇、训练实例的顺序和目标任务进行合理选择可以达到一定的改进效果。

Nov, 2023

神经机器翻译中课程学习的实证探索

采用概率课程学习方法，可以在不损失翻译质量的前提下，缩短德语 - 英语翻译模型的收敛时间，但具体效果受到样本难度标准、课程表和超参数的影响。

Nov, 2018

语言模型预训练的不可简化课程

提出了一种用于大型语言模型预训练的不可约课程算法，通过模拟训练轨迹中的样本损失，以提高学习性，实验证明在各个领域中都能提高验证困惑度，并且降低网络的尖锐度，在 MMLU 基准上表现出更好的 5-shot 准确度。

Oct, 2023

句子编码任务的课程迁移学习

通过数据操纵和语法分析引导的一系列预训练步骤（课程），在源任务与目标任务分布漂移时实现进一步逐步适应，相较于其他已知的预训练方法，在 MultiWoZ 任务方面取得了显著的改进。

Aug, 2023

Ling-CL: 通过语言学教学计划理解 NLP 模型

通过分析多个基准 NLP 数据集，我们的课程学习方法识别到了一系列语言度量（指标），这些指标揭示了每个任务所需的挑战和推理，从而使得我们的工作在所有 NLP 领域中提供了未来研究的参考，并且在研究开发过程中早期考虑了语言复杂性。此外，我们的工作促使 NLP 领域对黄金标准和公平评估进行审视。

Oct, 2023

神经机器翻译数据选择课程

本文通过两阶段课程训练框架及对六种语言对的全面实验，证明了基于预训练方法和在线评分的确定性评分选择数据子集，对神经机器翻译模型进行微调训练的课程训练策略会显著提高 BLEU 质量（高达 2.2 个 BLEU），并且更快地收敛（更新次数减少了约 50%）。

Mar, 2022

战略数据排序：通过课程学习提升大型语言模型性能

通过课程学习的数据中心培训策略，根据数据的不同指标进行排序可以提高大型语言模型的性能，而无需增加模型大小或数据集容量，从而解决大型语言模型培训中的可扩展性挑战。

May, 2024

课程学习：综述

该文介绍了如何通过课程学习来训练机器学习模型，从而提高性能和准确率，并且探讨了如何排序和引入更难的数据，同时提供了未来工作的一些方向。

Jan, 2021

预训练神经机器翻译模型的强化课程学习

本文针对神经机器翻译中如何最佳利用具有多样性质和不同质量级别的数据样本提出了数据选择框架，通过筛选对模型性能有重要影响的样本来改进已经预先训练过的模型。实验表明，所提出的基于确定性演员 - 评论家 (Deterministic Actor-Critic) 的数据选择方法能够在不增加新的训练数据的情况下显著提高翻译质量，并大幅优于其他强基线方法。

Apr, 2020