随着更大的模型和更长的训练，词汇泛化能力提高

EMNLPOct, 2022

随着更大的模型和更长的训练，词汇泛化能力提高

Lexical Generalization Improves with Larger Models and Longer Training

Elron Bandel, Yoav Goldberg, Yanai Elazar

TL;DR该研究分析了自然语言推理、释义检测和阅读理解中词汇重叠启发式的使用，发现更大的模型较不容易采用词汇重叠启发式，并且更长的训练会导致模型放弃使用词汇重叠启发式，最后提供证据表明模型大小差异的根源在于预训练模型。

Abstract

While fine-tuned language models perform well on many tasks, they were also shown to rely on superficial surface features such as lexical overlap. Excessive utilization of such heuristics can lead to failure on challenging inputs. We analyze the use of →

language models lexical overlap heuristics natural language inference reading comprehension pre-trained models

发现论文，激发创造

利用词汇语义变化提高预训练语言模型的时间泛化能力

本论文提出了一种基于词汇层面 masking 的后训练策略，以此来解决大规模神经语言模型在时间通用性方面存在的问题，实验证明该方法在两个预训练语言模型、两种不同分类任务和四个基准数据集上效果优于现有的连续训练策略。

Oct, 2022

大型语言模型中的长度泛化探究

该研究探讨了基于 transformer 的语言模型的长度推广能力，发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广，并鉴别了错误的共同来源，为赋予语言模型推广到更长问题的能力提供了新的机会。

Jul, 2022

预训练模型中非受控的词汇暴露导致组合泛化被高估

通过对 Kim and Linzen（2020）的 COGS 基准进行测试，我们发现两种修改后的评估设置均导致 T5（Raffel et al.，2020）的泛化性能降低，暗示以前报道的结果由于预训练期间未受控制的词汇暴露而被高估。

Dec, 2022

词汇重复导致机械记忆：揭示训练和测试参考摘要中词汇重叠的影响

理想的摘要模型应该能推广到新的值得摘要的内容，而不需要死记参考训练摘要，我们提出了一种细粒度的评估协议，通过基于参考测试摘要与训练摘要之间的词汇相似性将测试集划分，限制训练摘要中的词汇重复能够防止死记硬背，并提高摘要模型的泛化性。

Nov, 2023

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

数据和模型中的顽固词汇偏见

使用新的统计方法检查模型训练过程中的假相关关系，发现即使使用了优化方法来减少数据中的偏差，训练出的模型中仍存在对标签的偏差，影响了自然语言推理和重复问题检测两个任务的性能。

Jun, 2023

神经语言模型中的语法推广的系统评估

我们对神经语言模型的句法知识进行了系统评估，发现模型架构的不同对句法泛化性能产生了显著影响，而不同数据集大小的影响相对较低。

May, 2020

大型语言模型在学习长尾知识方面面临困难

本文研究了大型语言模型记忆的知识与其预训练数据中信息之间的关系，结果发现语言模型回答基于事实的问题的能力与预训练期间看到的相关问题文档数量有强相关性和因果关系；同时，该研究发现，虽然更大的模型能学习更长尾的知识，但需要将模型规模增加数个数量级才能在缺乏支持数据的问题上实现具有竞争性的问答表现。最后，对相关文档数量依赖进行检索增强，能够有效捕捉长尾知识。

Nov, 2022

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

审视被忽略的内容：自然语言推断中重复单词偏见分析

本研究发现目前 NLI 模型在处理具有低重叠度的 “假设” 和 “前提” 时，很容易出现双向重叠偏差，当前的去除偏差方法对这种类型的偏差并无效果，探究了重叠偏差产生的原因和在减轻此类偏差方面少数类样例的作用，并发现其并非是源于预训练。

Nov, 2022