揭示 Transformer 模型中的多语言性：探索前向网络中的语言特征

Oct, 2023

揭示 Transformer 模型中的多语言性：探索前向网络中的语言特征

Unveiling Multilinguality in Transformer Models: Exploring Language Specificity in Feed-Forward Networks

Sunit Bhattacharya, Ondrej Bojar

TL;DR通过分析 Transformer 中的前向模块，研究表明其可以被视为一系列键值记忆，提出了关于多语言模型中神经元对不同语言的响应不平等的假设，并通过实验证实了此假设。

Abstract

Recent research suggests that the feed-forward module within transformers can be viewed as a collection of key-value memories, where the k

feed-forward module transformers key-value memories multilingual models language-specific features

发现论文，激发创造

Transformer 前馈层即键值内存

通过实验我们发现，transformer 模型中的前馈层作为键值内存操作，其键与训练示例中的文本模式相关，并且每个值在输出词汇表上引入一个分布。同时利用残差连接使得前馈层的输出分布集中于出现在每个模式后的可能出现的标记。

Dec, 2020

语言特定神经元：大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的 Transformer 架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024

神经元专业化：利用内在任务模块化实现多语言机器翻译

通过神经元特化，提出一种解决多语言翻译中干扰和促进知识转移的方法，并通过大量实验证明了其相比强基准模型的性能提升以及减少干扰并增加知识转移的效果。

Apr, 2024

变压器前馈层通过在词汇空间中促进概念来建立预测

通过反向工程变压器模型中的前馈神经网络层的运算过程，分析其词汇空间中的更新，控制预测结果，提高计算效率。

Mar, 2022

理解 FFNs 在 LLMs 中推动多语言行为的角色

多语言模型（LLMs）中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。

Apr, 2024

先对齐，再预测：理解多语言 BERT 的跨语言能力

使用一种新的层摘除技术和模型内部表示的分析方法，我们发现多语言 BERT 可看作两个子网络的堆叠：一个多语言编码器和一个任务特定的语言无关的预测器。编码器对于跨语言传递非常关键，在微调过程中大部分不变，而任务预测对传递影响很小，可以在微调期间重新初始化。

Jan, 2021

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

基于解码器的预训练语言模型的多语言能力：发现和控制语言特定神经元

当前基于解码器的预训练语言模型（PLMs）成功展示了多语言能力，但这些模型如何处理多语言仍不清楚。我们分析了多语言解码器 PLMs 的神经元级内部行为，特别是考察解码器 - 仅多语言 PLMs 内部是否存在 “独特地只为每种语言” 激活的神经元。我们分析了六种语言：英语、德语、法语、西班牙语、中文和日语，并显示每种语言的语言特定神经元是唯一的，在不同语言之间存在轻微的重叠（<5%）。这些神经元主要分布在模型的前几层和最后几层。此趋势在所有语言和模型中始终一致。此外，在推断过程中，我们对每个模型中少于 1% 的神经元进行干扰，并展示了对少数语言特定神经元的干扰会大幅改变生成文本中目标语言发生的概率。

Apr, 2024

多尺度 Transformer 语言模型

本文研究了多尺度变压器语言模型，提出了三种不同的架构，并实验性地证明了多尺度表示在内存效率，计算时间和困惑度方面的优势，具有特殊的吸引力。

May, 2020

预训练纯文本 Transformer 中的多模态神经元

通过向文本转换器添加视觉信息，我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态，在转换器内部发现了模态之间的转换，并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作，并对图像字幕生成产生系统性的因果影响。

Aug, 2023