理解 FFNs 在 LLMs 中推动多语言行为的角色

Apr, 2024

理解 FFNs 在 LLMs 中推动多语言行为的角色

Understanding the role of FFNs in driving multilingual behaviour in LLMs

Sunit Bhattacharya, Ondřej Bojar

TL;DR多语言模型（LLMs）中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。

Abstract

multilingualism in large language models (LLMs) is an yet under-explored area. In this paper, we conduct an in-depth analysis of the multilingual capabilities of a family of a Large Language Model, examining its

multilingualism large language models architecture activation patterns processing mechanisms

发现论文，激发创造

大型语言模型如何处理多语种能力？

大型语言模型在跨多种语言表现出卓越的性能。本文探讨了大型语言模型处理多语言的方式，提出了一个处理多语言输入的框架，并利用该框架验证其有效性，并展示如何通过该框架有效提升多语言能力。

Feb, 2024

从人类行为角度探索语言模型

基于人类行为学视角，我们探究了大型语言模型（LLMs）的预测过程和内部机制，通过将 LLMs 的值与眼动测量结果相关联，发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外，随着前馈网络（FFN layers）的升级，记忆和语言知识编码的能力也逐渐提升直至达到巅峰，并转向注重理解能力。自注意力机制的功能分布在多个头部。最后，我们审查了门控机制，发现它们控制信息的流动，有些门控机制促进信息的传递，而其他门控机制则消除信息。

Oct, 2023

解密巴别塔：探索大型语言模型中的多语言激活模式

通过将大型语言模型（LLMs）转换为专家混合（MoE）架构，分析其在处理各种语言时的专家激活模式，探索并发现非语言特定神经元和语言特定激活神经元的存在，并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性，这些发现为 LLMs 的多语言处理机制提供了启示，对指导 LLMs 的多语言训练和模型修剪具有重要意义。

Feb, 2024

语言特定神经元：大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的 Transformer 架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024

大型语言模型的国际化综述：最新进展和新的研究方向

对大型语言模型（LLMs）在多语种环境中的应用进行了综述，包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用，同时讨论了相关方面的主要挑战和潜在解决方案，并提出了进一步增强语言模型的未来研究方向。

May, 2024

揭示 Transformer 模型中的多语言性：探索前向网络中的语言特征

通过分析 Transformer 中的前向模块，研究表明其可以被视为一系列键值记忆，提出了关于多语言模型中神经元对不同语言的响应不平等的假设，并通过实验证实了此假设。

Oct, 2023

多语言大型语言模型的跨语言能力和知识障碍

通过评估六种最先进的大型语言模型在跨语言任务上的表现，本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力，但在更深层次的跨语言知识转移上存在困难，揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法，有效减少了这些差距，甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。

Jun, 2024

多语种是多语种 LLM

通过对 101 种语言进行全面分析，评估了大型语言模型（LLMs）的多语言能力，并将具有相似特征的语言分类为四个不同的象限，为调整这些语言提供可操作的指导。通过深入研究每个象限，阐明了其分类背后的理由，并提出了改进 LLMs 的多语言性能的具体属性。实验结果表明，现有的 LLMs 具有超出预期的多语言能力，并且通过关注每个象限中存在的不同属性，我们可以显著提高 LLMs 的多语言表现。

Nov, 2023

多语言大型语言模型综述：语料库、对齐和偏差调查

该研究分析了多语言大型语言模型（MLLMs）的关键问题，包括语言不平衡、多语言对齐和固有偏差，探讨 MLLMs 的全球语言表示能力、偏见和挑战，并提出了有前景的研究方向。

Apr, 2024

多语言大型语言模型与多语言性诅咒

多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面，并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外，还探讨了不同模型类型的独特特征，包括仅编码器模型、仅解码器模型和编码器 - 解码器模型。同时，还讨论了多语言大型语言模型的一个重要局限性，即多语言之间的相互影响问题，并探究了克服这一问题的当前尝试。

Jun, 2024