随着更大的模型和更长的训练,词汇泛化能力提高
本论文提出了一种基于词汇层面 masking 的后训练策略,以此来解决大规模神经语言模型在时间通用性方面存在的问题,实验证明该方法在两个预训练语言模型、两种不同分类任务和四个基准数据集上效果优于现有的连续训练策略。
Oct, 2022
该研究探讨了基于 transformer 的语言模型的长度推广能力,发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广,并鉴别了错误的共同来源,为赋予语言模型推广到更长问题的能力提供了新的机会。
Jul, 2022
通过对 Kim and Linzen(2020)的 COGS 基准进行测试,我们发现两种修改后的评估设置均导致 T5(Raffel et al.,2020)的泛化性能降低,暗示以前报道的结果由于预训练期间未受控制的词汇暴露而被高估。
Dec, 2022
理想的摘要模型应该能推广到新的值得摘要的内容,而不需要死记参考训练摘要,我们提出了一种细粒度的评估协议,通过基于参考测试摘要与训练摘要之间的词汇相似性将测试集划分,限制训练摘要中的词汇重复能够防止死记硬背,并提高摘要模型的泛化性。
Nov, 2023
研究通过以前辈生成的合成数据对大型语言模型进行训练的后果,重点关注这种训练方法对语言多样性的影响,特别是在逐步迭代的过程中。通过开展递归微调实验,应用一系列针对词汇、句法和语义多样性的新型度量标准,我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险,特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。
Nov, 2023
使用新的统计方法检查模型训练过程中的假相关关系,发现即使使用了优化方法来减少数据中的偏差,训练出的模型中仍存在对标签的偏差,影响了自然语言推理和重复问题检测两个任务的性能。
Jun, 2023
本文研究了大型语言模型记忆的知识与其预训练数据中信息之间的关系,结果发现语言模型回答基于事实的问题的能力与预训练期间看到的相关问题文档数量有强相关性和因果关系;同时,该研究发现,虽然更大的模型能学习更长尾的知识,但需要将模型规模增加数个数量级才能在缺乏支持数据的问题上实现具有竞争性的问答表现。最后,对相关文档数量依赖进行检索增强,能够有效捕捉长尾知识。
Nov, 2022
本文从贝叶斯的角度出发,将大型语言模型视作主题模型,提出了一种从标注数据中选择最佳示范的算法,并在实际数据集中证明相对于随机选择基线,平均有 12.5% 的显著改进。研究表明,大型语言模型从示范中隐式地推断出潜在的概念变量。
Jan, 2023
本研究发现目前 NLI 模型在处理具有低重叠度的 “假设” 和 “前提” 时,很容易出现双向重叠偏差,当前的去除偏差方法对这种类型的偏差并无效果,探究了重叠偏差产生的原因和在减轻此类偏差方面少数类样例的作用,并发现其并非是源于预训练。
Nov, 2022