神经元专业化:利用内在任务模块化实现多语言机器翻译
本篇研究论文提出了一种新的多语言神经机器翻译模型,将模型神经元划分为通用部分和特定语言部分,以解决当前的多语言翻译方法忽略语言特定知识的问题。实验证明,该方法对于多种语言对有很好的效果和普适性。
Jul, 2021
通过新的检测方法 - 语言激活概率熵(LAPE),我们研究了大型语言模型中的 Transformer 架构,以确定语言特定的区域,并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。
Feb, 2024
通过使用稀疏微调的语言子网络作为更好引导跨语言共享的手段,最近的研究提出在多语言语言模型中明确引入语言模块化。本文研究了 (1) 在没有特殊模块化干预的情况下,语言模块化自然形成的程度,以及 (2) 这种模型与具有显式稀疏微调引导的子网络模块化的模型之间跨语言共享和干扰的差异。通过使用训练数据归因方法来量化语言专门化和跨语言交互,我们的结果表明,语言专门化的子网络确实自然形成,并且稀疏微调不一定增加模块化,而是可能减少子网络的语言专门化,更倾向于进行跨语言共享。
Nov, 2023
通过向文本转换器添加视觉信息,我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态,在转换器内部发现了模态之间的转换,并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作,并对图像字幕生成产生系统性的因果影响。
Aug, 2023
该研究采用神经元级别探测器,在包括 43 种语言的 14 个形态句法类别上进行了大规模的实证研究,并发现了多语言预训练模型的跨语言重叠是显著的,但其范围可能因语言接近性和预培训数据的大小而异,支持其能够对语法进行语言通用的抽象。
May, 2022
当前基于解码器的预训练语言模型(PLMs)成功展示了多语言能力,但这些模型如何处理多语言仍不清楚。我们分析了多语言解码器 PLMs 的神经元级内部行为,特别是考察解码器 - 仅多语言 PLMs 内部是否存在 “独特地只为每种语言” 激活的神经元。我们分析了六种语言:英语、德语、法语、西班牙语、中文和日语,并显示每种语言的语言特定神经元是唯一的,在不同语言之间存在轻微的重叠(<5%)。这些神经元主要分布在模型的前几层和最后几层。此趋势在所有语言和模型中始终一致。此外,在推断过程中,我们对每个模型中少于 1% 的神经元进行干扰,并展示了对少数语言特定神经元的干扰会大幅改变生成文本中目标语言发生的概率。
Apr, 2024
通过分析 Transformer 中的前向模块,研究表明其可以被视为一系列键值记忆,提出了关于多语言模型中神经元对不同语言的响应不平等的假设,并通过实验证实了此假设。
Oct, 2023
多语言大型语言模型(LLMs)的多语言机制对其内部表示的共享程度进行研究,并发现语言分享模式受任务类型和输入的影响,所有共享神经元在生成正确响应中起关键作用,增加所有共享神经元可以提高多语言任务的准确性。
Jun, 2024
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022
通过研究多模态大型语言模型的内部机制,我们在多语种研究的启发下,发现了多模态大型语言模型中的领域特定神经元,并研究了这些模型如何处理来自不同领域的特征。进一步地,我们提出了一个三阶段的语言模型模块框架,用于处理投影的图像特征,并使用逻辑镜头验证了这一假设。大量实验证明,虽然当前的多模态大型语言模型具备视觉问答的能力,但它们可能没有充分利用领域特定的信息。适当地操纵领域特定的神经元最多会导致 10% 的准确率变化,为未来跨领域、全方位的多模态大型语言模型的发展提供了启示。我们的代码将在论文通知后发布。
Jun, 2024