自注意力限制了基于变换器模型的工作记忆容量
本文研究了基于注意力机制的Transformer模型在自然语言处理中的应用,通过对GPT-2模型的注意力结构的可视化和大规模语料库的分析,发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系,最深层次关注最远程的联系,并抽取了展现特定关注头目标的范例句子。
Jun, 2019
通过使用注意力机制,Transformer 模型不仅在性能上有所提升,同时还可通过可视化工具展示模型如何赋权于不同的输入元素,从而实现模型的解释和解读,本文提出了一种开源的基于多尺度可视化注意力机制的工具,并在 BERT 和 OpenAI GPT-2 上进行了演示,包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。
Jun, 2019
通过研究注意力矩阵中不同位置的重要性,我们提出了可重构性较强的Transformer模型SparseBERT,并给出了Differentiable Attention Mask算法以进一步指导模型的设计。我们证明了对角线元素可以被移除,而不影响模型的性能。通过广泛实验,证实了我们的有趣发现和算法的有效性。
Feb, 2021
该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型Transformers模型,并以惊奇度作为交叉连接假设模型进行实证研究,并识别该方法的局限性以指导未来的研究。
Oct, 2022
该研究介绍了一种新的探测方法 PAPA,它通过使用常量作为注意力权重值,取代了输入相关的注意力矩阵。该研究表明,当使用PAPA时,预训练Transformer模型在6个下游任务上仍然能够保持不错的性能表现,说明模型中的注意力机制并非如人们通常认为的那样重要。因此,该研究为探索更为简单的替代输入相关的注意力机制以及更好地利用这一机制提供了新的研究思路。
Nov, 2022
我们提出了一种名为反馈注意力记忆(FAM)的新型Transformer架构,利用反馈循环使网络能够关注自身的潜在表示,从而促进Transformer内部的工作记忆的出现,使其能够处理无限长的序列。通过实验证明,TransformerFAM在长文本任务中显著改善了Transformer的性能,无论模型大小为1B、8B还是24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。
Apr, 2024
Transformers在无需显式先前训练的情况下,基于输入示例学习和执行任务的能力,也称为上下文学习(ICL),是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功ICL的明确答案,采用线性关注在ICL线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加,学习曲线具有双峰,且模型的行为在低和高任务多样性之间出现相变:在低多样性情况下,模型趋向于记忆训练任务,而在高多样性情况下,它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性Transformer架构的实验进行了经验证实。
May, 2024
通过研究注意力头与人类情节记忆之间的关系,我们发现Transformers模型和自注意机制的缺失,并发现在大型语言模型中诱导头的行为、功能和机制与人类情节记忆的上下文维护和检索(CMR)模型有相似之处。我们的研究揭示了LLMs的计算机制与人类记忆之间的并行关系,为这两个研究领域提供了有价值的洞见。
May, 2024
人类注意力机制和Transformer模型在容量约束、注意路径和意图机制等方面存在显著差异,本文从认知功能的角度进行比较分析,旨在揭示一些开放性研究问题并鼓励跨学科努力,以从人类注意力机制中获得洞察,进而发展更普适的人工智能。
Apr, 2024