LongHeads：多头注意力暗地里是一个长上下文处理器

Feb, 2024

LongHeads：多头注意力暗地里是一个长上下文处理器

LongHeads: Multi-Head Attention is Secretly a Long Context Processor

Yi Lu, Xin Zhou, Wei He, Jun Zhao, Tao Ji...

TL;DR通过解锁多头注意力的潜力，我们提出了一个无需额外训练的框架 LongHeads，以增强大语言模型（LLMs）在处理长篇输入方面的能力，通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记，同时不同层的不同头可以共同处理更长的上下文，有效地扩展了现有模型的可用上下文窗口，展示了对增强长文本理解的潜力。

Abstract

large language models (LLMs) have achieved impressive performance in numerous domains but often struggle to process lengthy inputs effectively and efficiently due to limited length generalization and attention's quadratic computational demands. Many sought to mitigate this by restricti

large language models long context ability multi-head attention chunk selection strategy long text understanding

发现论文，激发创造

检索式机制解释长上下文真实性

通过系统调查，发现特定类型的注意力头在检索信息和长范文本中具有重要作用，称之为检索头，它们在转换器模型中普遍存在，稀疏且动态激活，对于链接思考推理和避免虚幻现象有深远影响。

Apr, 2024

聚焦 Transformer：上下文缩放的对比训练

提出了一种名为 Focused Transformer（FoT）的技术，通过对称的学习过程来增强（键，值）空间的结构，从而提供更长的上下文长度，有效地解决了大型语言模型在处理长文本时的局限性。

Jul, 2023

大型语言模型的免训练长篇背景文本扩展

通过使用 Dual Chunk Attention (DCA) 来实现对超过 100k 个 token 的上下文窗口的支持，从而达到与有限调优模型相媲美，甚至更好性能的 70B 模型。

Feb, 2024

超级关注力：近线性时间的长篇长文本关注力

我们提出了一个名为 HyperAttention 的近似注意力机制，用于解决大型语言模型（LLMs）中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度，我们能够实现线性时间采样算法，即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计，容易集成其他快速底层实现，特别是 FlashAttention。实证上，通过利用局部敏感哈希（LSH）来识别大条目，HyperAttention 优于现有方法，在与 FlashAttention 等最先进解决方案相比，获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能，例如，ChatGLM2 的推理时间得以加快 50％，而困惑度从 5.6 增加到 6.3。对于更大的上下文长度，例如 131k，并采取因果屏蔽，HyperAttention 在单个注意层上实现了 5 倍的加速。

Oct, 2023

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

LLM 或许为 LongLM: 无需调整自我延伸 LLM 上下文窗口

通过自扩展方法，利用现有的大型语言模型的内在能力来处理长文本，并延伸其上下文窗口，以有效应对长输入序列。

Jan, 2024

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

识别语义引导头以理解上下文学习

通过对注意力头的运行进行详细分析，我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系，从而推进了我们对 transformers 中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。

Feb, 2024