组成、注意力或两者皆有？

EMNLPOct, 2022

Composition, Attention, or Both?

Ryo Yoshida, Yohei Oseki

TL;DR本文研究了 Composition Attention Grammars（CAGs）结构，并使用自我关注机制递归地将子树组合成单个向量表示。我们评估了此结构的作用，以及语言模型与和没有此结构的区别，发现适当的结构设计可以增强语言模型的人类化与语法推理功能。

Abstract

In this paper, we propose a novel architecture called Composition Attention Grammars (CAGs) that recursively compose subtrees into a single vector representation with a composition function, and selectively attend to previous structural information with a self-attention mechanism. We i

composition attention grammars self-attention mechanism syntactic generalization language models subtree representations

发现论文，激发创造

通过分离语法和语义，在深度序列到序列模型中实现对组合概括的学习

本文提出一种基于神经机器翻译的新模型 Syntactic Attention，采用分离语法与语义学习的方式训练，拥有捕捉人类语言组成性结构的能力，相较于标准深度学习方法在具有组成性泛化任务的数据集 SCAN 上表现显著优异。

Apr, 2019

超网络中的注意力

使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力，在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。

Jun, 2024

结构化注意力与合成的文本蕴含

本文研究了使用子树级别的 attention 模型进行文本蕴含任务，相比基于硬对齐和逻辑的传统模型具有更强鲁棒性和更高准确度，并且扩展 attention 模型到树节点可以更好地利用语法和递归信息提高准确度。

Jan, 2017

通过专注的指导进行复合学习

介绍了 Attentive Guidance，这是一种机制，可以指导序列到序列模型配备关注机制，以找到更多的组合解决方案。通过测试，证明序列到序列模型具备在不需要额外组件的情况下找到组成性解决方案的能力。

May, 2018

BERT 中的注意力头是否学会了成分语法？

本文通过对 BERT 和 RoBERTa 中的 attention heads 进行定量和定性分析，采用句法距离方法从每个头的 attention 权重中提取隐式成分结构语法，发现一些头比基线更好地诱导了一些语法类型，且一些头充当了成分结构语法的代理。此外，本文分析了 Fine-tuning 两种任务后 attention heads 的诱导能力如何改变，结果表明句子意思相似性任务减少了上层的平均 CGI 能力，而自然语言推理任务增加了其能力。最后，我们探讨了 CGI 能力与 QQP 和 MNLI 任务的自然语言理解能力之间的联系。

Feb, 2021

人类关注下的句子表示学习

研究发现，将不同权重分配给句子中的单词能够有效提高句子的表达能力，该论文提出了两种基于 Surprisal、POS tags 和 CCG supertags 的注意力机制模型用于改进句子表示，实验证明这种方法显著优于现有模型。

Sep, 2016

组合转码：利用注意力发现更具普适性的解决方案

本文介绍了 seq2attn，这是一种新的架构，旨在利用注意力来发现输入中的组合模式。这篇论文证明了 seq2attn 可以成功地推广应用于挑战神经网络组合技能的两项任务。

Jun, 2019

句法距离引导的局部自注意力机制

本文提出了一种语法指导的本地化自注意力 Transformer，该方法允许直接从外部成分句法分析器中加入语法结构，禁止注意机制通过加权距离较远但语法正确的令牌而不是接近的令牌。实验结果显示，我们的模型可以在从小到大不同规模的机器翻译数据集上持续地提高翻译性能。

Oct, 2022

提高语义解析中组合泛化能力

本文探究在语义解析中复合泛化的问题，研究了多种模型并提出多种扩展，其中包括使用上下文表示、指导解码器、训练解码器等等，结果发现这些因素有助于促进复合泛化。

Oct, 2020

神经网络中组合性实现

本文详细比较了两种序列模型在试图解决合成任务时的差别，通过更多的监督信号，辅助注意机制，参数空间和隐藏层激活机制的不同，发现具有引导性的网络在识别更组合解决方案方面具有更高的效率，并且展现出更加模块化的神经元特点。

Jun, 2019