利用分解注意力的单层变换器对广义 Potts 模型进行最优推断

Apr, 2023

利用分解注意力的单层变换器对广义 Potts 模型进行最优推断

Optimal inference of a generalised Potts model by single-layer transformers with factored attention

Riccardo Rende, Federica Gerace, Alessandro Laio, Sebastian Goldt

TL;DR通过对来自一个广义 Potts 模型的数据进行学习，我们证明了带一点修改的自注意力单层可以在无限采样的极限下精确地学习这个分布，这种修改后的自注意力具有与条件概率相同的功能形式。

Abstract

transformers are the type of neural networks that has revolutionised natural language processing and protein science. Their key building block is a mechanism called →

transformers self-attention natural language processing protein science potts model

发现论文，激发创造

自注意机制中的感性偏见和变量创建

本文通过对自我注意模块归纳偏差的理论分析，发现有界 Transformer 网络能够创建稀疏变量，从而用单个注意力头表示输入序列的稀疏函数，样本复杂度仅以对数尺度增长；通过合成实验来支持我们的分析，探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。

Oct, 2021

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

一层自注意力变压器使用低秩权重矩阵是通用逼近器吗？

通过澄清 softmax 函数与 Boltzmann 算子之间的联系，我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力，从而表明单层 Transformer 具有有限样本的记忆能力，并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。

Jul, 2023

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

选择变换方法：傅里叶或伽辽金

本文介绍了一种基于 Transformers 的 Galarkin 变换学习器，能够在解决偏微分方程方面，显著提高训练成本和评估准确性。

May, 2021

超网络中的注意力

使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力，在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。

Jun, 2024

Transformer 和神经网络的原始 - 对偶框架

自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键，本研究提出了一种基于支持向量回归问题的自注意力构建方法，推导出常用的注意力层，并提出了两种新型注意力机制：1) 批正则注意力，2) 缩放头注意力，通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。

Jun, 2024

信息路径假说：变形金刚是动态自组织

提出一种名为 SSA 的训练策略，该策略可以减少自注意力的内存和计算成本，同时提高泛化能力。该策略基于信息通路的假设，该信息通路可以独立训练，并能形成子模型，优于密集型自注意力模型在不同的 NLP，计算机视觉和图形学任务中表现优异。

Jun, 2023

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023