揭示和利用隐藏的注意力汇聚：通过注意力校准增强大型语言模型的性能

Jun, 2024

揭示和利用隐藏的注意力汇聚：通过注意力校准增强大型语言模型的性能

Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration

PDF

Zhongzhi Yu, Zheng Wang, Yonggan Fu, Huihong Shi, Khalid Shaikh...

TL;DR通过细致研究和可视化大型语言模型（LLMs）中的注意力分布，本研究发现注意力汇的存在可以通过在提取信息时实时优化的了解，从而提高 LLMs 的准确性并避免权重调整。

Abstract

Attention is a fundamental component behind the remarkable achievements of large language models (LLMs). However, our current understanding of the attention mechanism, especially regarding how →

attention mechanism attention sink large language models attention distributions attention calibration technique

发现论文，激发创造

注意力汇聚的高效流式语言模型

部署大型语言模型（LLMs）在流式应用中的一个研究论文，介绍了两个主要挑战和一个有效的解决方案 StreamingLLM，用于长文本的流式部署，能够在无需微调的情况下实现 LLMs 的稳定和高效的语言建模。

Sep, 2023

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

不忘初心：大规模视觉语言模型的关注力视觉校准

通过 Attentional Vision Calibration (AVC) 技术，针对 Large Vision Language Models (LVLMs) 中出现的盲目令牌（blind tokens）引发的视觉对象细节理解问题，通过动态调整逻辑回归预测以降低对盲目令牌的依赖，从而提高所有令牌的平衡考虑，有效地减少了 LVLMs 中的视觉对象幻觉。

May, 2024

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

揭秘：调查检索增强生成中的注意力精简

通过注意力蒸馏机制，综合评估了提取增强模型的工作流程，明确了影响检索 - 增强语言模型学习质量的关键因素，并提出了优化模型训练方法和避免无效训练的指标。

Feb, 2024

添加前缀注意力节点以缓解大型语言模型量化中的激活值异常

提出了一种名为 CushionCache 的方法，通过防止生成问题标记，来促进每个张量的激活量化，成功解决了 LLMs 的激活离群值问题，并为每个张量的激活量化方法提供了显著的性能提升。

Jun, 2024

零 - shot 下注意力汇聚增强的大型语言模型的 RTL 代码生成

利用大型语言模型简化硬件设计中的代码生成过程，并探索其在资源受限的问题中的应用能力。

Jan, 2024

系统 2 关注力（您可能也需要）

为了改善 Transformers 大型语言模型中软关注对上下文的无关信息进行纳入对下一个标记生成产生副作用的问题，我们引入了系统 2 关注（S2A），它利用语言模型推理和遵循指令来决定应该关注什么，并通过重构上下文来提取相关部分，然后关注这个重构上下文来引出最终的响应。在包含观点或无关信息、问答、数学问题和长文生成的三个任务上实验证明，S2A 比基于标准关注的语言模型表现更好，能提高事实性和客观性，并减少阿谀奉承。

Nov, 2023

基于锚定的大型语言模型

本研究引入了基于锚点的 LLM (AnLLM) 模型，该模型利用了一种创新的基于锚点的自注意力网络 (AnSAN) 和一种基于锚点的推理策略，将序列信息压缩到锚点令牌中，从而减少键 / 值缓存并提高推理效率。实验证明，AnLLM 在保持可比精度的同时缩减了 99% 的键 / 值缓存，并实现了高达 3.5 倍的更快推理速度。尽管在精度上有轻微折衷，AnLLM 在计算效率和资源利用方面具有显著改善，展示了锚点式注意力方法在实际应用中对于实时推理的潜力。

Feb, 2024

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024