系统 2 关注力（您可能也需要）

Nov, 2023

System 2 Attention (is something you might need too)

Jason Weston, Sainbayar Sukhbaatar

TL;DR为了改善 Transformers 大型语言模型中软关注对上下文的无关信息进行纳入对下一个标记生成产生副作用的问题，我们引入了系统 2 关注（S2A），它利用语言模型推理和遵循指令来决定应该关注什么，并通过重构上下文来提取相关部分，然后关注这个重构上下文来引出最终的响应。在包含观点或无关信息、问答、数学问题和长文生成的三个任务上实验证明，S2A 比基于标准关注的语言模型表现更好，能提高事实性和客观性，并减少阿谀奉承。

Abstract

soft attention in transformer-based large language models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects →

soft attention transformer-based large language models system 2 attention next token generations factuality

发现论文，激发创造

变压器中的注意力 - 相似度关系

我们分析了大型语言模型（LLMs）如何表示上下文之外的单词，研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性，揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明，意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示，特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。

Mar, 2023

通过注意力值压缩输入长度和生成文本

本文研究了 BERT 的注意力机制，探究了两个问题：如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制，并发现 BERT 的早期层对文本分类任务的关注度更高，其注意力和可以用于过滤给定序列的令牌，一定程度上减少了输入长度同时保持良好的测试准确性。

Mar, 2023

使用中继注意力实现高效的大型语言模型与长系统提示的服务

通过一种名为 RelayAttention 的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量 / 延迟瓶颈问题，该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Feb, 2024

将系统 2 凝聚为系统 1

自我监督方法可以通过蒸馏将 “大语言模型” 系统 2 的能力提高并进行加速的效果，同时也能使 “连续学习人工智能系统” 集中在其目前无法良好执行的推理任务上。

Jul, 2024

基于句间注意力机制改进基于 Transformer 的对话语音识别

本文提出了一种基于 Transformer 的端到端架构方法，在自动语音识别中精确建模跨话语的语境依赖，通过引入上下文感知残余注意机制，对先前语音的上下文进行编码，同时，还采用条件解码器框架将历史语言信息融入到当前预测中，结果表明该方法在几种公开对话语料库上都取得了持续的改进

Jul, 2022

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

上下文感知的选择性关注神经机器翻译

提出了基于上下文感知 NMT 的层次化注意力机制来处理整个文档的翻译，并使用稀疏注意力机制在文档上选择性地关注相关句子和关键词，将这些注意力模块产生的文档级上下文表示集成到 Transformer 模型的编码器或解码器中，通过在英德数据集上的实验进一步验证了该方法的有效性。

Mar, 2019

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

神经生成的即时注意力调节

本研究通过分析语言模型在句子级别的注意力模式，发现神经退化可能与注意机制对任务特征的学习不足有关。因此，提出了一种称为‘实时注意力调节’的方法，该方法在推理过程中向注意力计算注入学习先验知识，有效地改善了语言模型生成的文本的流畅性、创造性和常识推理能力，并显著减少了句子级别的重复。

Jan, 2021