大规模语言模型中的大规模激活

Feb, 2024

Massive Activations in Large Language Models

Mingjie Sun, Xinlei Chen, J. Zico Kolter, Zhuang Liu

TL;DR研究发现大型语言模型中存在大量激活，它们相对于其他激活值明显较大（如大约 10 万倍）；这些巨大激活是普遍存在的且对 LLMs 起着重要的偏置项作用，导致注意力概率集中在相应的单词上并进一步成为自我注意输出中的隐含偏置项；此外，还研究了在视觉转换器中产生的大激活。

Abstract

We observe an empirical phenomenon in large language models (LLMs) -- very few activations exhibit significantly larger values than others (e.g., 100,000 times larger). We call them massive activations. First, we

large language models massive activations attention probabilities bias terms vision transformers

发现论文，激发创造

解密巴别塔：探索大型语言模型中的多语言激活模式

通过将大型语言模型（LLMs）转换为专家混合（MoE）架构，分析其在处理各种语言时的专家激活模式，探索并发现非语言特定神经元和语言特定激活神经元的存在，并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性，这些发现为 LLMs 的多语言处理机制提供了启示，对指导 LLMs 的多语言训练和模型修剪具有重要意义。

Feb, 2024

大型语言模型八大要点

该论文调查了大型语言模型的八个潜在问题，包括其预测能力的增强，不可预测的行为的出现，对外部世界的学习和使用表示，行为引导技术的不可靠性，内部工作方式的解释困难性，性能上界不是人类任务表现，不一定表达其创建者或网络文本编码的价值观，与 LLMs 的简短交往经常是误导性的。

Apr, 2023

语言特定神经元：大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的 Transformer 架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024

大型语言模型中的偏见解读：一种基于特征的方法

大型语言模型（LLMs）具有卓越的性能，在各种自然语言处理（NLP）任务中表现出色。本文通过一种新颖的基于特征的分析方法研究了 LLMs 内部偏见的传播。我们的发现揭示了 LLMs 中偏见的复杂性质并强调了定制的去偏方法的必要性，为有效缓解偏见机制和途径提供了更深入的理解。

Jun, 2024

变压器中的注意力 - 相似度关系

我们分析了大型语言模型（LLMs）如何表示上下文之外的单词，研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性，揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明，意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示，特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。

Mar, 2023

对语言模型激活的敌对攻击的尺度定律

用语言模型的激活进行对抗性攻击的研究表明，操纵模型激活的相对较小的子集可以精确控制大量（最多达到 1000 个）随后的标记预测，并发现对输入空间的控制与对输出空间的控制存在一致性，并且攻击模型的激活比攻击标记要强得多，这为对多模式和选定检索模型的攻击提供了新的可能性。

Dec, 2023

探索价值偏见：LLM 模型向理想状态的偏离

一项研究发现，大型语言模型的非故意回应存在价值偏差，倾向于偏爱高价值选项，该偏差在不同领域的语言模型中都存在，并对相关应用场景选择起到影响。

Feb, 2024

通过缩放单一维度来减轻大型语言模型的位置偏见

本文研究了大型语言模型中的位置偏见问题，发现注意力权重和因果性注意掩码是位置偏见的微观表现，提出了通过调整位置隐状态来减轻位置偏见的方法，并通过在多个任务上进行实验验证了该方法的有效性和普适性。

Jun, 2024

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

探索语言模型参数的激活模式

基于梯度的度量方法探索了大型语言模型内部的参数激活程度，发现参数在浅层被密集激活，而在深层被稀疏激活；当输入跨越不同领域时，浅层参数的激活行为更相似；在深层，参数的激活分布与实际数据相关性呈正相关；进一步验证了这些发现，并期望能在实际应用中产生更多启发。

May, 2024