Ling-CL: 通过语言学教学计划理解 NLP 模型
本文介绍一种新的 NLI 基准 Curriculum,其中包括 36 种广泛涵盖的语言现象的数据集和评估程序,证明这种以语言现象驱动的基准在诊断模型行为和验证模型学习质量方面具有有效性,同时为未来对数据集的重新设计、模型架构和学习目标的研究提供了启示和借鉴。
Apr, 2022
本研究探讨了使用语言学课程学习法对语言模型预训练的效果,并且在 GLUE 基准测试中评估了转移性能,结果显示我们并未找到令人信服的证据表明课程学习方法可以改善语言模型训练。
Aug, 2021
我们通过三种认知引导的课程学习变体对模型在语言评估任务上的性能进行了分析,并发现在早期训练阶段对词汇、训练实例的顺序和目标任务进行合理选择可以达到一定的改进效果。
Nov, 2023
本研究利用训练动态作为难度指标,对现有的课程学习调度程序进行修改,并在多个自然语言理解任务中展示出通过训练动态的课程学习可以在零 - shot 跨语言传输和 out-of-distribution(OOD)场景下获得更好的性能,提高至多 8.5%。同时,该方法相较于其他难度度量方法更能平滑训练,并且平均速度提高了 20%。
Oct, 2022
本文探究了神经语言模型(NLM)在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响,结合多重探测任务发现,尽管 BERT 能够编码多种语言特征,但在特定的下游任务训练后往往导致相关信息丢失,而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。
Oct, 2020
神经语言模型(LM)在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现,尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格,并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时,LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集,这些数据集已由大量母语用户进行了梯度可接受性评估,并旨在特别探索语法的结构基础。在这样一种数据集(LI-Adger 数据集)上,LM 在评估句子时与人类语言用户的方式不一致。最后,我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。
Oct, 2023
通过课程学习的数据中心培训策略,根据数据的不同指标进行排序可以提高大型语言模型的性能,而无需增加模型大小或数据集容量,从而解决大型语言模型培训中的可扩展性挑战。
May, 2024
介绍课程发现问题,提出一种能够在课程空间内根据样本难度的先验知识,发现有效课程的课程学习框架。使用注释熵和损失作为难度度量标准,我们发现:(i)对于给定的模型和数据集,顶级发现的课程通常是非单调课程,而不是现有文献中的单调课程,(ii)普遍的易于难或难于易过渡课程往往存在表现不佳的风险,(iii)在较小的数据集和模型上表现良好的课程在较大数据集和模型上表现也很好。该框架包含一些现有的课程学习方法,并可以发现在几个自然语言处理任务上优于它们的课程。
Jul, 2023
语言理解是一个多方面的认知能力,自然语言处理(NLP)领域几十年来一直致力于计算化建模。最近大型语言模型(LLMs)的出现,使得以生成模型为动力的通用性、任务无关的方法成为主流,这导致了语言任务传统上的划分不再适用,带来了对评估和分析的挑战,同时也加大了对可靠系统的需求。因此,我们主张重新思考 NLP 中任务和模型评估的涵义,并追求对语言的更全面视角,将可靠性放在核心地位。为了实现这一目标,我们回顾了现有的划分式方法,以了解模型功能能力的起源,并提出了多方面评估协议的建议。
Oct, 2023