关于上下文学习的组成泛化差距

Nov, 2022

On the Compositional Generalization Gap of In-Context Learning

Arian Hosseini, Ankit Vani, Dzmitry Bahdanau, Alessandro Sordoni, Aaron Courville

TL;DR本研究探讨了预训练大型生成语言模型在语义解析任务中在上下文学习时的分布内和分布外表现差异以及模型规模的影响，结果显示随着模型规模的增加，相对泛化差距逐渐减小。

Abstract

Pretrained large generative language models have shown great performance on many tasks, but exhibit low compositional generalization abilities. Scaling such models has been shown to improve their performance on various NLP tasks even just by conditioning them on a few examples to solve

pretrained language models compositional generalization in-context learning semantic parsing relative generalization gap

发现论文，激发创造

提高语义解析中组合泛化能力

本文探究在语义解析中复合泛化的问题，研究了多种模型并提出多种扩展，其中包括使用上下文表示、指导解码器、训练解码器等等，结果发现这些因素有助于促进复合泛化。

Oct, 2020

多样化的演示增强上下文组合泛化

本文提出一种使用不同的演示程序来鼓舞模型学习新体系结构的方法，以解决复合泛化的问题，并表明在纯实际学习设置和与微调结合使用时，结合多样化的演示可以显著提高三个组合泛化语义分析数据集的性能。

Dec, 2022

主题、领域和语言变化的桥梁：综合离域场景的评估

在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。

Sep, 2023

探索上下文学习与组合泛化之间的关系

通过在不同顺序的训练实例和打乱实例标签中训练模型，以测试强迫模型进行上下文学习对组成概括的促进作用的假设，研究表明，以这种方式训练的模型在组成概括方面确实显示出改进，证明了上下文学习问题作为归纳偏差用于概括的有效性。

Mar, 2024

评估模型规模对语义解析中组合泛化的影响

通过对 11B 参数的 encoder-decoder 模型和 540B 参数的 decoder-only 模型的 fine-tuning 参数、prompt-tuning 和 in-context learning 三种不同方法的比较，发现 pre-trained language models 在 semantic parsing 中在 out-of-distribution compositional generalization 上的 fine-tuning 表现较差，而 in-context learning 虽然具有正向的 scaling curve，但通常被远小于其的 fine-tuned models 胜出，唯独 prompt-tuning 能够胜出 fine-tuning，并为未来的工作提供了有希望的方向。

May, 2022

上下文示例如何影响组合推广？

本文介绍了 CoFe 测试套件，以研究上下文中符合规范的泛化，研究发现，应该具有与测试案例结构相似，彼此之间不同和个别简单的上下文实例，还应该覆盖必需的语言结构。

May, 2023

克服视觉语言模型微调的问题：针对 OOD 泛化

在本论文中，我们首先展示了，经过足够时间的微调但没有适当的正则化，视觉 - 语言模型在给定数据集中往往会过度拟合已知类别，导致对未知类别的表现下降。然后，我们提出了一种新颖的方法 OGEN 来解决这个问题，在关注点主要是改进经过微调模型的未知类别（OOD）泛化能力。具体而言，我们引入了一种类条件特征生成器，通过仅使用任何未知类别的类名，合成 OOD 特征。这些合成特征将提供关于未知类别的有用知识，并在联合优化时有助于规范 ID 和 OOD 数据之间的决策边界。同样重要的是，我们的自适应自蒸馏机制用于规范特征生成模型，在联合优化期间自适应地传递模型状态之间的知识，以进一步防止过度拟合。实验证实，我们的方法在不同设置下提供了令人信服的 OOD 泛化性能增益。

Jan, 2024

理解生成式 Transformer 模型在 OOD 泛化中的神秘性能下降

基于生成 Transformer 模型在解决各种问题方面取得了显著的熟练度，但其泛化能力尚未被完全理解并且不始终令人满意。研究人员将 n 位数加法或乘法等基本数学任务作为调查其泛化行为的重要角度。然而，有趣的是，当在 n 位数操作（例如加法）上进行训练时，模型在未见过的 n 位数输入上可以成功泛化（分布内泛化），但在更长的、未见过的情况下却失败且神秘（分布外泛化）。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而，如果不解决基本机制，对于这些解决方案的鲁棒性几乎没有任何保证。我们引起人们对这种无法解释的性能下降的注意，并询问它是否纯粹是由于随机错误。在这里，我们转向机制研究的线路，这在模型可解释性方面取得了显著的成功。我们发现强 ID 泛化源于结构化表示，而在令人不满意的 OOD 性能方面，模型仍然展现出明确的学习代数结构。具体而言，这些模型将未见过的 OOD 输入映射到具有 ID 域等价关系的输出。这凸显了模型携带有用信息以改善泛化的潜力。

Aug, 2023

背景下的学习表现具有普适性，但并非始终稳定：以语法为例

在本研究中，我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性，并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现，相较于模型大小，模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时，我们还发现，在代码上进行预训练的模型更好地推广，并在更大程度上受到思维链提示的益处。

Nov, 2023

学习理解：模块化算术任务中上下文学习和技能组合的出现

通过研究模块化算术任务中上下文学习和技能组合的出现，我们证明了 GPT-style transformer 模型从分布内到分布外泛化的转变，也发现了最小的能够进行分布外泛化的模型需要两个 transformer 块。

Jun, 2024