语言特定神经元：大型语言模型多语能力的关键

Feb, 2024

语言特定神经元：大型语言模型多语能力的关键

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang...

TL;DR通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的 Transformer 架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Abstract

large language models (LLMs) demonstrate remarkable multilingual capabilities without being pre-trained on specially curated multilingual parallel corpora. It remains a challenging problem to explain the underlyi

large language models multilingual capabilities transformer architectures language-specific neurons output language

发现论文，激发创造

大型语言模型如何处理多语种能力？

大型语言模型在跨多种语言表现出卓越的性能。本文探讨了大型语言模型处理多语言的方式，提出了一个处理多语言输入的框架，并利用该框架验证其有效性，并展示如何通过该框架有效提升多语言能力。

Feb, 2024

解密巴别塔：探索大型语言模型中的多语言激活模式

通过将大型语言模型（LLMs）转换为专家混合（MoE）架构，分析其在处理各种语言时的专家激活模式，探索并发现非语言特定神经元和语言特定激活神经元的存在，并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性，这些发现为 LLMs 的多语言处理机制提供了启示，对指导 LLMs 的多语言训练和模型修剪具有重要意义。

Feb, 2024

基于解码器的预训练语言模型的多语言能力：发现和控制语言特定神经元

当前基于解码器的预训练语言模型（PLMs）成功展示了多语言能力，但这些模型如何处理多语言仍不清楚。我们分析了多语言解码器 PLMs 的神经元级内部行为，特别是考察解码器 - 仅多语言 PLMs 内部是否存在 “独特地只为每种语言” 激活的神经元。我们分析了六种语言：英语、德语、法语、西班牙语、中文和日语，并显示每种语言的语言特定神经元是唯一的，在不同语言之间存在轻微的重叠（<5%）。这些神经元主要分布在模型的前几层和最后几层。此趋势在所有语言和模型中始终一致。此外，在推断过程中，我们对每个模型中少于 1% 的神经元进行干扰，并展示了对少数语言特定神经元的干扰会大幅改变生成文本中目标语言发生的概率。

Apr, 2024

神经元专业化：利用内在任务模块化实现多语言机器翻译

通过神经元特化，提出一种解决多语言翻译中干扰和促进知识转移的方法，并通过大量实验证明了其相比强基准模型的性能提升以及减少干扰并增加知识转移的效果。

Apr, 2024

分享的重要性：在 LLMs 中分析不同语言和任务的神经元

多语言大型语言模型（LLMs）的多语言机制对其内部表示的共享程度进行研究，并发现语言分享模式受任务类型和输入的影响，所有共享神经元在生成正确响应中起关键作用，增加所有共享神经元可以提高多语言任务的准确性。

Jun, 2024

大型语言模型是并行的多语种学习者

通过将输入翻译成多种语言来提供多语言平行输入（PiM）给多语言大型语言模型（LLMs），从而显著提升它们的理解能力，实验结果表明，多语言输入有助于通过翻译超越传统的上下文学习，激活的神经元数量较少的现象与突触修剪的神经学理论吻合，有助于增强智力。

Mar, 2024

基于浅层未训练多头注意力网络的类脑语言处理

通过研究大型语言模型，该论文揭示了语言模型与人类大脑的相似性，重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素，最终提出了一种高度与人类大脑和行为对齐的模型。

Jun, 2024

理解 FFNs 在 LLMs 中推动多语言行为的角色

多语言模型（LLMs）中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。

Apr, 2024

基于重要性的神经元分配在多语言神经机器翻译中的应用

本篇研究论文提出了一种新的多语言神经机器翻译模型，将模型神经元划分为通用部分和特定语言部分，以解决当前的多语言翻译方法忽略语言特定知识的问题。实验证明，该方法对于多种语言对有很好的效果和普适性。

Jul, 2021

在预训练的 Transformer 中找到并编辑多模态神经元

通过一系列实验，我们提出了一种基于多模态神经元的新方法，用于识别基于变压器的多模态大型语言模型中的多模态神经元，并通过四个精心设计的定量评估指标突出了多模态神经元的三个关键属性。此外，我们介绍了一种基于识别的多模态神经元的知识编辑方法，用于将一个特定标记修改为另一个指定标记。我们希望我们的发现能够激发对多模态大型语言模型理解机制的进一步解释性研究。

Nov, 2023