神经序列模型的组合泛化能力再探讨

ACLMar, 2022

神经序列模型的组合泛化能力再探讨

Revisiting the Compositional Generalization Abilities of Neural Sequence Models

Arkil Patel, Satwik Bhattamishra, Phil Blunsom, Navin Goyal

TL;DR本文针对基础的 seq-to-seq 模型缺乏组合概括能力的问题，重点讨论了使用一次性原语概括来增强这种能力的方法，发现通过修改训练数据的方式，能够使标准的 seq-to-seq 模型实现接近完美的概括能力表现，并且对该现象进行了详细的实证分析，指出了模型的概括性能对于训练数据的特征非常敏感，因而应该在设计这样的基准测试时仔细考虑训练数据的选择。

Abstract

compositional generalization is a fundamental trait in humans, allowing us to effortlessly combine known phrases to form novel sentences. Recent works have claimed that standard seq-to-seq models severely lack th

compositional generalization seq-to-seq models primative generalization scan benchmark training data

发现论文，激发创造

重塑熟悉：测试循环网络的组合泛化能力

研究表明，在小范围模拟的语言理解任务中，seq2seq 模型具有很强的单词和短语的组合能力，但是当需要推导出新的组合规则时，模型的表现则很糟糕，需要更多的训练。

Jul, 2018

组合推理需要组合分析器

该研究系统比较了序列到序列模型和基于组合原则的模型在 COGS 语料库上处理组合泛化能力的能力，在结构泛化任务中，基于序列的模型表现接近零，而组成模型在结构泛化任务中表现接近完美，这表明结构泛化是组成泛化的关键度量，需要能够处理复杂结构的模型。

Feb, 2022

通过学习分析表达式实现组合泛化

通过基于神经网络和具有符号功能的可变插槽进行变通泛化的记忆增强神经模型，该模型由两个协同神经模块组成，一个是 Composer，另一个是 Solver，通过分层强化学习算法进行端到端训练，实现变通组合能力，其在 well-known benchmark SCAN 上的实验表明，我们的模型具有极强的组合泛化能力，以 100％精度解决了之前工作中面临的所有挑战。

Jun, 2020

无系统性泛化：关于序列到序列递归网络的组成技能

该论文介绍了 SCAN 领域，并使用序列到序列的方法对各种复发神经网络进行零样本泛化能力的测试。研究发现，当训练和测试指令之间的差异很小时，RNN 可以成功进行零样本泛化，但是当泛化需要系统的组合能力时，RNN 则失败了。研究结论显示，缺乏系统性可能部分原因导致神经网络需要大量的训练数据。

Oct, 2017

通过分离语法和语义，在深度序列到序列模型中实现对组合概括的学习

本文提出一种基于神经机器翻译的新模型 Syntactic Attention，采用分离语法与语义学习的方式训练，拥有捕捉人类语言组成性结构的能力，相较于标准深度学习方法在具有组成性泛化任务的数据集 SCAN 上表现显著优异。

Apr, 2019

基本替换的构成性泛化

本研究探索使用双重表示来编码组合性，一种生成注意力图，另一种将输入转化为数字的映射。我们改进了每种表示中的熵来提高泛化能力。在五项自然语言处理任务中，实验结果显示本方法对于传统方法有显著的改进，协助实现人类级别的组合语言学习。

Oct, 2019

通过结构标注提高分类任务中的组合泛化能力

本文研究了复合推理在分类任务中的应用，并提出结构提示（如句法树和实体链接）对于解决神经模型复合推理问题具有较好的效果。

Jun, 2021

基于分解的序列到序列学习的真实世界组合通用化

通过对 Disentangled sequence-to-sequence 模型进行改进，我们引入了两个关键的修改，以更好地处理语言中的组合概括，从而在现有任务和数据集上实现更好的泛化性能，并创造了一个新的机器翻译基准，并展示了这种方法比人工设计呈现更好的真实通用性。

Dec, 2022

元序列转序列学习实现的组成泛化

本文介绍了如何通过元 seq2seq 学习策略来改进记忆增强神经网络，在此方法中，模型通过一系列的 seq2seq 问题进行训练，从而获得解决新 seq2seq 问题所需的组合技能，进而解决了组合学习的一些问题。

Jun, 2019

语义标记实现组合泛化

在语义解析中，提出了一个新的解码框架，该框架保留了序列到序列模型的表现力和通用性，同时具有类似词典的对齐和解开信息处理，能够提高模型的组合泛化能力。

Oct, 2020