超网络中的注意力

Jun, 2024

Attention as a Hypernetwork

Simon Schug, Seijin Kobayashi, Yassir Akram, João Sacramento, Razvan Pascanu

TL;DR使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力，在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。

Abstract

transformers can under some circumstances generalize to novel problem instances whose constituent parts might have been encountered during training but whose compositions have not. What mechanisms underlie this ability for →

transformers compositional generalization hypernetwork latent code abstract reasoning tasks

发现论文，激发创造

当可以进行变形器基础和组合：来自组合泛化基准测试的见解

使用谷歌的翻译翻译：“该论文介绍了基于变压器的模型如何理解世界，并将语言表达与现实世界联系起来，这对研究者在这一领域的工作非常有帮助。通过在基于网格的导航任务上进行的基准测试，我们发现识别网格世界中的目标位置是模型面临的主要挑战，变压器可以泛化到更深的输入结构，并提供了一种更简单的基于调节的组合任务，以调查变压器的计算行为。

Oct, 2022

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构

该文探讨了怎样使用 Transformer 网络在算法任务中表现良好，展示了多层 transformer 网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

组合转码：利用注意力发现更具普适性的解决方案

本文介绍了 seq2attn，这是一种新的架构，旨在利用注意力来发现输入中的组合模式。这篇论文证明了 seq2attn 可以成功地推广应用于挑战神经网络组合技能的两项任务。

Jun, 2019

基于关系注意力的图结构任务通用 Transformer

本文描述了如何使用关系注意力处理图数据，以及在各种基准测试中比图神经网络做得更好的关系变压器。

Oct, 2022

神经程序合成中的组合泛化和分解

本文介绍了一种测量神经程序合成方法能否组合泛化的方法，引入了基于两个流行数据集的任务基准套件，以评估合成器在组合泛化方面的能力，最后通过新的注意机制来改进变压器模型的组合泛化能力

Apr, 2022

通过辅助序列预测任务诱导 Transformer 的组合泛化能力

该论文提出了两种辅助序列预测任务来帮助解决神经模型在学习符号结构时的不足，并通过在 SCAN 数据集上的实验证明了所提出的方法可以提高 Transformer 模型理解命令的组合结构的能力。

Sep, 2021

Transformer 模型解决复合任务

通过探索 Transformer 模型的设计空间，我们发现一些设计上的决策对该模型的归纳偏差有很大的影响。我们发现这些决策可以显著地提高 Transformer 模型的组合泛化能力，并在各种复合任务中实现了比文献报道的更好的泛化结果，并在语义分析组合泛化基准（COGS）和字符串编辑操作组合基准（PCFG）中实现了最先进的结果。

Aug, 2021

基本替换的构成性泛化

本研究探索使用双重表示来编码组合性，一种生成注意力图，另一种将输入转化为数字的映射。我们改进了每种表示中的熵来提高泛化能力。在五项自然语言处理任务中，实验结果显示本方法对于传统方法有显著的改进，协助实现人类级别的组合语言学习。

Oct, 2019

自动组合表示变换以促进泛化

介绍了一种广泛适用的形式主义，即组合问题图，以解决机器学习中不利于推广的问题，提出了组合泛化问题并引入组合递归学习器，该框架适用于学习算法过程以组合表示转换，从而产生能够进行推理的学习器。

Jul, 2018