使用乐高揭示变形金刚：一项综合推理任务

Jun, 2022

使用乐高揭示变形金刚：一项综合推理任务

Unveiling Transformers with LEGO: a synthetic reasoning task

Yi Zhang, Arturs Backurs, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar...

TL;DR提出了一个综合推理任务 LEGO，研究了 Transformer 架构如何学习这个任务，特别关注预训练和数据组成等数据效应，从而提出了一种假设，在 LEGO 任务中预训练有所帮助，因为存在一定的结构化注意力模式，经实验证实。同时提出 LEGO 注意力模块，是 vanilla 注意力头的可替换选择，显著减少 Flops 并维持或甚至提高模型的大规模预训练性能。

Abstract

We propose a synthetic reasoning task, lego (Learning Equality and Group Operations), that encapsulates the problem of following a chain of reasoning, and we study how the →

transformer architectures synthetic reasoning task lego pretraining structured attention patterns

发现论文，激发创造

Transformer 如何学习主题结构：迈向机制理解

本文研究 transformers 学习的机制和语义结构，揭示了 embedding 层和 self-attention 层如何编码语义结构，具体表现为同主题单词之间的嵌入内积和自注意力相对较高。

Mar, 2023

基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构

该文探讨了怎样使用 Transformer 网络在算法任务中表现良好，展示了多层 transformer 网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

一个关于训练于符号多步推理任务的 Transformer 的机制分析

通过对合成推理任务进行综合机械分析，我们鉴定了一组可解释的机制，这个模型用来解决任务，并使用相关和因果证据验证了我们的发现。我们的结果表明，它实现了一组深度有限的并行循环机制，并将中间结果存储在选择的令牌位置，我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。

Feb, 2024

基于关系注意力的图结构任务通用 Transformer

本文描述了如何使用关系注意力处理图数据，以及在各种基准测试中比图神经网络做得更好的关系变压器。

Oct, 2022

超网络中的注意力

使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力，在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。

Jun, 2024

Transformer 中的推理：减轻伪相关性和推理捷径

用已知有误导性关联的数据集，在逻辑推理任务中训练两种模型：基于证明的生成式 Transformer 模型 WP-BART 和神经符号模型 SIP-BART。结果发现，SIP-BART 能够避免逻辑推理的捷径，而 WP-BART 无法。对于 SIP-BART，还发现了几种之前文献中未描述的推理错误类型，并进行了定性分析，创建了一个包含四种不同陷阱类型的分类系统。

Mar, 2024

变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的 Transformer 修改，通过每个头部添加两个可训练参数来减少所需的数据量。

Oct, 2023

Join-Chain Network: Transformer 中多头注意力机制的逻辑推理视角

提出一种符号推理架构，使用许多连接算子来模拟输出逻辑表达式，并演示这样的连接 - 链集合可以表达广泛子集的一阶逻辑表达式，名为 FOET，特别适用于建模自然语言。

Oct, 2022

自监督变形器中抽象表征的形成与功能

通过研究小规模 transformer 在重建部分遮蔽的简单蓝图可视场景方面的内在机制，我们发现网络发展了一种包含数据集的所有语义特征的中间抽象表示或抽象，这些抽象表现为低维流形，其中语义相关令牌的嵌入短暂地收敛，从而实现了对下游计算的泛化。我们还引入了一种语言增强架构（LEA），旨在鼓励网络表达其计算过程，发现 LEA 发展了一种易于解释的以抽象为中心的语言，使我们更容易访问和指导网络的决策过程。

Dec, 2023

使用逻辑归纳偏置学习语言表示

本文介绍了一种基于逻辑推理的神经网络架构 FOLNet，它可以有效地学习强大的语言表示，并具有更强的迁移学习能力。实验证明，FOLNet 模型在多个语言理解任务中胜过了现有的强大的基于 Transformer 的方法。

Feb, 2023