利用树状投影表征 Transformer 中的固有组合性

Nov, 2022

利用树状投影表征 Transformer 中的固有组合性

Characterizing Intrinsic Compositionality in Transformers with Tree Projections

Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning

TL;DR研究表明，当进行语言数据训练时，transformers 是学习一种简单的基于树状结构的计算过程，可以解释像人类语言这样的复合意义系统，这种过程没有必要使用其完整架构的全部容量。通过无监督和无参数的方法，可以在任何 transformer 和树状结构之间建立功能投影，而三项不同的任务实验表明，在一些情况下，可无监督地恢复相同的树状结构，这些树状结构有助于模型的行为改进。

Abstract

When trained on language data, do transformers learn some arbitrary computation that utilizes the full capacity of the architecture or do they learn a simpler, tree-like computation, hypothesized to underlie compositional meaning systems like human languages? There is an apparent tensi

transformers compositional meaning neural models unsupervised learning tree-structured networks

发现论文，激发创造

通过辅助序列预测任务诱导 Transformer 的组合泛化能力

该论文提出了两种辅助序列预测任务来帮助解决神经模型在学习符号结构时的不足，并通过在 SCAN 数据集上的实验证明了所提出的方法可以提高 Transformer 模型理解命令的组合结构的能力。

Sep, 2021

香草 Transformer 中的分层结构理解

本文研究了神经序列和转换语言模型的层次结构泛化能力，发现通过长时间训练，模型能够学习到层次结构的一般性，对模型深度的分析证明浅层和深层不如中等深度的模型性能优秀。此发现证实了香草珂朵莉模型能够发现和使用自然语言中的层次结构。

May, 2023

无需种植树木的语法学习：理解变换器何时以及何种方式实现分层普遍化

透过对自然语言数据训练的 Transformer 模型的研究和实验证明，具备语言建模目标的 Transformer 模型更容易学习和推广层次结构，并在处理无法预见的句法结构的句子时表现优异。

Apr, 2024

Transformer 模型解决复合任务

通过探索 Transformer 模型的设计空间，我们发现一些设计上的决策对该模型的归纳偏差有很大的影响。我们发现这些决策可以显著地提高 Transformer 模型的组合泛化能力，并在各种复合任务中实现了比文献报道的更好的泛化结果，并在语义分析组合泛化基准（COGS）和字符串编辑操作组合基准（PCFG）中实现了最先进的结果。

Aug, 2021

赋予 Transformer 系统性组合能力的探索

提出了一种名为 CAT 的具有组合性意识的 Transformer 模型以及两个新的预训练任务，实验结果表明 CAT 在组合性感知任务上优于基线模型，对标准语言理解任务的有效性影响较小。

Dec, 2023

语言建模的组合方法

本文提出了一种新的语言模型，通过序列组合树来取代之前基于线性链的假设，消除了结构上的任何假设，利用对比熵作为评估度量标准对新模型进行评估，相较于以往基于递归神经网络的模型，在失真级别上获得了超过 100% 的改进。

Apr, 2016

神经网络中的树状结构组成，无需树状结构架构

本论文通过对人工数据任务的实验，研究了基于树结构和基于序列的神经网络模型对于递归组合结构的应用效果。结果表明，基于序列的 LSTM 模型同样能够识别该结构并进行相应运用，但树结构模型在处理这种结构时表现更为出色。

Jun, 2015

信仰与命运：变形金刚在组合性上的局限性

本研究旨在探讨 Transformer 大型语言模型在复合任务上的局限性，研究结果表明 Transformer 模型虽然具有出色的多步推理性能，但其解决复合任务的方式是将多步推理化简为线性子图匹配，而并未完全发展出解决问题的系统性解决问题的方法，同时，随着任务复杂度的增加，Transformer 模型的性能也会快速下降。

May, 2023

一个研究合成的、可解释任务中 Transformer 能达到的能力水平

通过对一系列广泛而系统的实验，本文展示了：（1）自回归 Transformer 模型可以学习训练数据中的组合结构，并能够推广到指数甚至组合数量的函数；（2）通过生成中间输出来组合函数比不生成中间输出更有效地推广到未见过的组合；（3）训练数据对模型组合未见过的函数的能力有显著影响；（4）模型后半部分的注意力层对于组合性至关重要。

Nov, 2023

组合性作为词汇对称性

该文章提出了一种基于数据分布的组合建模通用框架，证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数，可在训练数据上产生新的、格式正确的例子，进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强，在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果，在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。

Jan, 2022