预训练模型中非受控的词汇暴露导致组合泛化被高估

Dec, 2022

预训练模型中非受控的词汇暴露导致组合泛化被高估

Uncontrolled Lexical Exposure Leads to Overestimation of Compositional Generalization in Pretrained Models

Najoung Kim, Tal Linzen, Paul Smolensky

TL;DR通过对 Kim and Linzen（2020）的 COGS 基准进行测试，我们发现两种修改后的评估设置均导致 T5（Raffel et al.，2020）的泛化性能降低，暗示以前报道的结果由于预训练期间未受控制的词汇暴露而被高估。

Abstract

Human linguistic capacity is often characterized by compositionality and the generalization it enables -- human learners can produce and comprehend novel complex expressions by composing known parts. Several benchmarks exploit distributional control across training and test to gauge co

compositional generalization pretrained models distributional control evaluation setups pretraining data

发现论文，激发创造

随着更大的模型和更长的训练，词汇泛化能力提高

该研究分析了自然语言推理、释义检测和阅读理解中词汇重叠启发式的使用，发现更大的模型较不容易采用词汇重叠启发式，并且更长的训练会导致模型放弃使用词汇重叠启发式，最后提供证据表明模型大小差异的根源在于预训练模型。

Oct, 2022

探索上下文学习与组合泛化之间的关系

通过在不同顺序的训练实例和打乱实例标签中训练模型，以测试强迫模型进行上下文学习对组成概括的促进作用的假设，研究表明，以这种方式训练的模型在组成概括方面确实显示出改进，证明了上下文学习问题作为归纳偏差用于概括的有效性。

Mar, 2024

基本替换的构成性泛化

本研究探索使用双重表示来编码组合性，一种生成注意力图，另一种将输入转化为数字的映射。我们改进了每种表示中的熵来提高泛化能力。在五项自然语言处理任务中，实验结果显示本方法对于传统方法有显著的改进，协助实现人类级别的组合语言学习。

Oct, 2019

元学习以复合泛化为目标

自然语言是组成的，神经网络在组成泛化方面表现差，自相似度驱动的元学习可提高自然语言处理模型的组成泛化能力。

Jun, 2021

Transformer 模型微调和组合之间的相互作用

研究发现，预训练的转换语言模型在很多 NLP 任务上表现出色；然而，这些模型在短语级别的表示中，除了词汇内容外，缺乏复杂的组合短语信息，进一步的 fine-tuning 只能在情感任务中局部提高性能，而在重新释义任务中则由于数据集中可能存在干扰信号的原因而不能提供改进。

May, 2021

关于上下文学习的组成泛化差距

本研究探讨了预训练大型生成语言模型在语义解析任务中在上下文学习时的分布内和分布外表现差异以及模型规模的影响，结果显示随着模型规模的增加，相对泛化差距逐渐减小。

Nov, 2022

利用词汇语义变化提高预训练语言模型的时间泛化能力

本论文提出了一种基于词汇层面 masking 的后训练策略，以此来解决大规模神经语言模型在时间通用性方面存在的问题，实验证明该方法在两个预训练语言模型、两种不同分类任务和四个基准数据集上效果优于现有的连续训练策略。

Oct, 2022

组合推理需要组合分析器

该研究系统比较了序列到序列模型和基于组合原则的模型在 COGS 语料库上处理组合泛化能力的能力，在结构泛化任务中，基于序列的模型表现接近零，而组成模型在结构泛化任务中表现接近完美，这表明结构泛化是组成泛化的关键度量，需要能够处理复杂结构的模型。

Feb, 2022

神经序列模型的组合泛化能力再探讨

本文针对基础的 seq-to-seq 模型缺乏组合概括能力的问题，重点讨论了使用一次性原语概括来增强这种能力的方法，发现通过修改训练数据的方式，能够使标准的 seq-to-seq 模型实现接近完美的概括能力表现，并且对该现象进行了详细的实证分析，指出了模型的概括性能对于训练数据的特征非常敏感，因而应该在设计这样的基准测试时仔细考虑训练数据的选择。

Mar, 2022

关于利用翻译数据集评估多语言组合泛化能力

通过翻译 MCWQ 数据集，我们证明不同语言具有不同的组合泛化能力，同时多语种模型仍然难以实现跨语言组成泛化。

Jun, 2023