预训练语言模型的胚胎学:ALBERT 的诞生
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
Nov, 2023
本研究旨在探究跨语言预训练模型的学习过程,发现该模型在语言内表现出较高的性能,复杂任务在低级语言技能前学习。添加不同的语言对跨语言转移的学习时机不同,并且最终模型层表现存在时间衰减现象,语言知识向网络底层传递。
May, 2022
介绍了一种提高语言模型结构理解能力的方法,它通过预训练语言模型生成的结构来替代以往的基于任务数据的微调方式,并且在包含 28 个数据集的 10 个预测任务上实现了零样本迁移和超越了 21 个数据集的最新成果。
May, 2022
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
利用 oLMpics 基准和心理语言学探测数据集,我们对包括 T5、BART 和 ALBERT 在内的 29 个模型进行了多样化的分析。结果表明,这些模型都无法以零样本的方式解决组成性问题,并且全局模型决策也不能预测模型的语言能力。
May, 2022
通过在人工语言上预训练编码器并探究其在自然语言处理中的表现,研究神经网络编码器中可迁移的结构知识,发现嵌套依赖结构的人工语言的预训练可以提供一些可迁移的知识,并且转移的成功与编码器中编码的上下文信息量相关,转移的是语言上下文依赖的位置感知知识。
Mar, 2022
本文研究了神经语言模型的第二语言习得,通过对双语 LM 的训练和分析交叉语言传递,发现在语言迁移配置方面,L1 预训练可以加速 L2 的语言泛化,并且影响泛化的因素非常明显,研究了它们在特定方面的非人类的 L2 习得能力。
Jun, 2023
本研究通过比较不同的预训练方法,包括从头开始预训练生物医学语言模型和在连续环境中预训练模型,并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重,加快预训练阶段并提高命名实体识别性能;此外,我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响;最终,我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus),在多项生物医学命名实体识别任务中创造了新的技术水平
Aug, 2023
本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验,包括量化计算、识别正则表达式和对字符串的推理,我们发现预先训练的模型明显优于可比较的非预先训练的神经模型,即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时,我们进一步探讨了不同文本领域对用户体验的影响,并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下,也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。
Oct, 2022
我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法,将分析转化为序列标记,通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们,结果表明:(i)该框架在多种编码上一致,(ii)预先训练的词向量不偏好成分句法表示,而是倾向于依赖表示,(iii)子词标记化需要用于表示语法,与基于字符的模型不同,(iv)从词向量中恢复语法时,语言在预训练数据中的出现比任务数据的数量更重要。
Sep, 2023