大型语言模型的注意头：综述

Sep, 2024

Attention Heads of Large Language Models: A Survey

Zifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang...

TL;DR本研究针对大型语言模型（LLMs）作为黑箱系统的现状，探讨它们内部机制中的注意头，通过四阶段框架分析人类思维过程，旨在揭示推理瓶颈的本质。结果表明，特定的注意头在推理过程中扮演了关键角色，为LMMs的进一步优化提供了新思路。

Abstract

Since the advent of ChatGPT, Large Language Models (LLMs) have excelled in various tasks but remain largely as black-box systems. Consequently, their development relies heavily on data-driven approaches, limiting performance enhancement through changes in internal architecture and reas

发现论文，激发创造

Heads假设：一种统一的统计方法，用于理解BERT中的多头注意力

提出一种新的方法，通过假设检验来形式化简单而有效的分数，从而分类定位transformer-based model的attention heads中的不同角色，可以更准确地回答一些有关BERT模型的问题，如多种功能角色在同一attention head中的共存，attention heads在不同层之间的分布以及特定NLP任务对这些功能角色的影响。

Jan, 2021

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

大型语言模型中语言和思维的分离：认知角度

今天的大型语言模型(LLMs)可以生成连贯的，符合语法的、有意义的文本段落，但在如人类思维一样的实际语言使用中，大多数测试需要功能语言能力，从认知神经科学的证据中，我们显示出LLMs显示出令人印象深刻（虽然不完美）的正式语言能力的任务，但在需要功能能力的许多测试中失败了。

Jan, 2023

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

从人类行为角度探索语言模型

基于人类行为学视角，我们探究了大型语言模型（LLMs）的预测过程和内部机制，通过将LLMs的值与眼动测量结果相关联，发现LLMs表现出与基于RNN的语言模型不同的预测模式。此外，随着前馈网络（FFN layers）的升级，记忆和语言知识编码的能力也逐渐提升直至达到巅峰，并转向注重理解能力。自注意力机制的功能分布在多个头部。最后，我们审查了门控机制，发现它们控制信息的流动，有些门控机制促进信息的传递，而其他门控机制则消除信息。

Oct, 2023

大型语言模型：当前辩论的细腻需求和实用角度下的理解

当前大型语言模型（LLMs）在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论，并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次，文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点，并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。

Oct, 2023

识别语义引导头以理解上下文学习

通过对注意力头的运行进行详细分析，我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系，从而推进了我们对transformers中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。

Feb, 2024

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

超越准确性：评估大型语言模型的推理行为--调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

揭示和利用隐藏的注意力汇聚：通过注意力校准增强大型语言模型的性能

通过细致研究和可视化大型语言模型（LLMs）中的注意力分布，本研究发现注意力汇的存在可以通过在提取信息时实时优化的了解，从而提高LLMs的准确性并避免权重调整。

Jun, 2024