大型语言模型中的关键神经元分析

Jun, 2024

大型语言模型中的关键神经元分析

Analyzing Key Neurons in Large Language Models

Lihu Chen, Adam Dejl, Francesca Toni

TL;DR本研究引入了神经元归因逆向集群归因（NA-ICA）的新架构不受限于特定模型，能够有效识别大型语言模型中的关键神经元，并通过多选题回答的代理任务检查单词以外的长文本答案。经验评估证明，NA-ICA 明显优于基准方法。此外，对神经元分布的分析揭示了可见的局部区域，尤其在不同领域之间。最后，我们展示了关键神经元在知识编辑和基于神经元的预测中的潜在应用。

Abstract

large language models (LLMs) possess vast amounts of knowledge within their parameters, prompting research into methods for locating and editing this knowledge. Previous investigations have primarily focused on fill-in-the-blank tasks and locating entity-related usually single-token fa

large language models neuron attribution-inverse cluster attribution multi-choice question answering neuron distributions knowledge editing

发现论文，激发创造

语言特定神经元：大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的 Transformer 架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024

揭示语言模型的参数化知识：一种统一的归因方法框架

我们的研究引入了一种新的评估框架，用于量化和比较 IA 和 NA 揭示的知识，并通过广泛的实验和分析表明，与 IA 相比，NA 通常揭示了更多关于 LM 的参数化知识的多样性和全面性信息，然而，IA 提供了有关 LM 的参数化知识的独特而有价值的见解，这不是由 NA 揭示的。我们的研究结果进一步表明，结合 IA 和 NA 的多样化发现可能对 LM 的参数化知识有更全面的理解。

Apr, 2024

MMNeuron：发现多模态大语言模型中的神经元级领域特定解释

通过研究多模态大型语言模型的内部机制，我们在多语种研究的启发下，发现了多模态大型语言模型中的领域特定神经元，并研究了这些模型如何处理来自不同领域的特征。进一步地，我们提出了一个三阶段的语言模型模块框架，用于处理投影的图像特征，并使用逻辑镜头验证了这一假设。大量实验证明，虽然当前的多模态大型语言模型具备视觉问答的能力，但它们可能没有充分利用领域特定的信息。适当地操纵领域特定的神经元最多会导致 10% 的准确率变化，为未来跨领域、全方位的多模态大型语言模型的发展提供了启示。我们的代码将在论文通知后发布。

Jun, 2024

对预训练语言模型中个体神经元的分析

本研究探讨了使用深度 NLP 模型学习的表示来捕捉语言知识。在核心语言学任务上进行了神经元级别的分析，研究了预训练的语言模型中的神经元是否捕捉了语言信息，哪些部分学习了某些语言现象，信息分散或集中在哪里，以及不同架构在学习这些属性方面的差异。本研究发现预测语言任务的神经元是小的子集，与较低级任务（如形态学）相比，预测句法这样的更高级任务的神经元更加分散。同时，本研究还揭示了有趣的跨架构比较，比如我们发现在预测性质方面，XLNet 中的神经元更加局部化和不连通，而 BERT 等则更加分布式和耦合。

Oct, 2020

分享的重要性：在 LLMs 中分析不同语言和任务的神经元

多语言大型语言模型（LLMs）的多语言机制对其内部表示的共享程度进行研究，并发现语言分享模式受任务类型和输入的影响，所有共享神经元在生成正确响应中起关键作用，增加所有共享神经元可以提高多语言任务的准确性。

Jun, 2024

大型语言模型中的上下文学习：基于神经科学的表示分析

大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响，以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术，我们发现在背景学习后，嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性，这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。

Sep, 2023

知识本地化：任务未完成？进入查询本地化！

大型语言模型可以存储广泛的事实知识，但其存储和表达这些知识的机制仍不清楚。本论文重新考察了知识定位假设的合理性，并从统计学和知识修改的角度确认了不符合该假设的事实的存在。进一步提出了关联查询和知识选择的方法，以及一种改进知识修改的一致性感知方法。通过 39 组实验证实了我们的结论。

May, 2024

语言相关性分析：在深度 NLP 模型中发现显著神经元

该研究利用 Linguistic Correlation Analysis 技术，定位和提取能够预测不同语言任务的少量神经元，研究表明深度 NLP 模型中神经元的学习特征高度分布和冗余，预训练模型的微调也会影响学习到的语言知识，同时还发现多语言变压器模型中的神经元分布具有相似性。

Jun, 2022

多语言知识编辑与语种无关的事实神经网络

多语种知识编辑 (MKE) 旨在同时修订大型语言模型 (LLMs) 中的事实知识。我们研究了 LLMs 如何表示多语种事实知识，并发现不同语言中的相同事实知识通常激活一组共享的神经元，我们称之为语言不可知事实神经元。基于此发现，我们提出了一种通过定位和修改语言不可知事实神经元来同时编辑多语种知识的新方法。在 Bi-ZsRE 和 MzsRE 基准上的实验结果表明，我们的方法优于现有的 MKE 方法，并取得了显著的编辑性能，表明考虑多语种知识之间的语义连接的重要性。

Jun, 2024

属性问答：针对属性化大语言模型的评估和建模

本文研究基于属性的 LLM 发展，在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属（attribution）以及现有方法在归属方面的表现如何，并提出了建立带归属特性的 LLMs 的可能方向。

Dec, 2022