自注意力限制了基于变换器模型的工作记忆容量

Sep, 2024

自注意力限制了基于变换器模型的工作记忆容量

Self-Attention Limits Working Memory Capacity of Transformer-Based Models

Dongyu Gong, Hantao Zhang

TL;DR本研究解决了变换器基础的大型语言模型在工作记忆容量上的限制问题，尤其是在N-back任务中表现显著下降。通过引入行为科学中的执行注意力理论，研究发现自注意力机制可能是导致这一容量限制的原因，且随着N的增加，注意力分数的总熵也随之增加，表明注意力分数的分散性可能是造成N-back任务容量限制的关键因素。

Abstract

Recent work on Transformer-based large language models (LLMs) has revealed striking limits in their Working memory capacity, similar to what has been found in human behavioral studies. Specifically, these models'

发现论文，激发创造

分析Transformer语言模型中的注意力结构

本文研究了基于注意力机制的Transformer模型在自然语言处理中的应用，通过对GPT-2模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

Transformer模型中的注意力的多尺度可视化

通过使用注意力机制，Transformer 模型不仅在性能上有所提升，同时还可通过可视化工具展示模型如何赋权于不同的输入元素，从而实现模型的解释和解读，本文提出了一种开源的基于多尺度可视化注意力机制的工具，并在 BERT 和 OpenAI GPT-2 上进行了演示，包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。

Jun, 2019

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

SparseBERT: 自注意力中重要性分析的反思

通过研究注意力矩阵中不同位置的重要性，我们提出了可重构性较强的Transformer模型SparseBERT，并给出了Differentiable Attention Mask算法以进一步指导模型的设计。我们证明了对角线元素可以被移除，而不影响模型的性能。通过广泛实验，证实了我们的有趣发现和算法的有效性。

Feb, 2021

人类记忆与深度语言模型：模型增强相关假设的联系

该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型Transformers模型，并以惊奇度作为交叉连接假设模型进行实证研究，并识别该方法的局限性以指导未来的研究。

Oct, 2022

关注机制的实际作用是多少？质疑预训练Transformers模型中关注机制的重要性

该研究介绍了一种新的探测方法 PAPA，它通过使用常量作为注意力权重值，取代了输入相关的注意力矩阵。该研究表明，当使用PAPA时，预训练Transformer模型在6个下游任务上仍然能够保持不错的性能表现，说明模型中的注意力机制并非如人们通常认为的那样重要。因此，该研究为探索更为简单的替代输入相关的注意力机制以及更好地利用这一机制提供了新的研究思路。

Nov, 2022

TransformerFAM：反馈注意力即工作记忆

我们提出了一种名为反馈注意力记忆（FAM）的新型Transformer架构，利用反馈循环使网络能够关注自身的潜在表示，从而促进Transformer内部的工作记忆的出现，使其能够处理无限长的序列。通过实验证明，TransformerFAM在长文本任务中显著改善了Transformer的性能，无论模型大小为1B、8B还是24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。

Apr, 2024

线性注意力下上下文学习的渐近理论

Transformers在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功ICL的明确答案，采用线性关注在ICL线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性Transformer架构的实验进行了经验证实。

May, 2024

将变形金刚中的上下文学习链接到人类的情节记忆

通过研究注意力头与人类情节记忆之间的关系，我们发现Transformers模型和自注意机制的缺失，并发现在大型语言模型中诱导头的行为、功能和机制与人类情节记忆的上下文维护和检索（CMR）模型有相似之处。我们的研究揭示了LLMs的计算机制与人类记忆之间的并行关系，为这两个研究领域提供了有价值的洞见。

May, 2024

从认知到计算：人类注意力与Transformer架构的比较综述

人类注意力机制和Transformer模型在容量约束、注意路径和意图机制等方面存在显著差异，本文从认知功能的角度进行比较分析，旨在揭示一些开放性研究问题并鼓励跨学科努力，以从人类注意力机制中获得洞察，进而发展更普适的人工智能。

Apr, 2024