基于重要性的神经元分配在多语言神经机器翻译中的应用
通过神经元特化,提出一种解决多语言翻译中干扰和促进知识转移的方法,并通过大量实验证明了其相比强基准模型的性能提升以及减少干扰并增加知识转移的效果。
Apr, 2024
通过新的检测方法 - 语言激活概率熵(LAPE),我们研究了大型语言模型中的 Transformer 架构,以确定语言特定的区域,并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。
Feb, 2024
我们提出了针对多种源语言和目标语言翻译的任务特定的注意力模型,旨在改进序列到序列神经机器翻译的质量。我们在欧洲议会语料库的四种语言上进行的实验表明,使用目标语言特定的注意力模型相对于参数共享模型提供了一致的翻译质量的提升,甚至在低资源的零 - shot 翻译方向上也观察到了翻译质量的改善。
Jun, 2018
通过发展无监督的方法来发现神经机器翻译模型中重要的神经元,我们发现了很多这样的神经元捕捉到了普遍的语言现象,并且发现翻译质量取决于这些发现的神经元。最后,我们说明如何通过修改神经元的激活来可预测地控制神经机器翻译的翻译结果。
Nov, 2018
通过对 NMT 模型的多个语言对进行实验,本文发现在自我关注和编码器解码器注意头方面的注意力头是对于特定的语言对的翻译比其他更加具有特定性,可以通过指标去评估其注意力权重的一些方面,同时还可以通过评估注意力头相对于翻译质量的重要性来对其进行系统排名,并发现最重要的注意力头在各种语言对中非常相似且几乎可以删除不那么重要的注意头而不严重影响翻译质量。
May, 2021
当前基于解码器的预训练语言模型(PLMs)成功展示了多语言能力,但这些模型如何处理多语言仍不清楚。我们分析了多语言解码器 PLMs 的神经元级内部行为,特别是考察解码器 - 仅多语言 PLMs 内部是否存在 “独特地只为每种语言” 激活的神经元。我们分析了六种语言:英语、德语、法语、西班牙语、中文和日语,并显示每种语言的语言特定神经元是唯一的,在不同语言之间存在轻微的重叠(<5%)。这些神经元主要分布在模型的前几层和最后几层。此趋势在所有语言和模型中始终一致。此外,在推断过程中,我们对每个模型中少于 1% 的神经元进行干扰,并展示了对少数语言特定神经元的干扰会大幅改变生成文本中目标语言发生的概率。
Apr, 2024
多语言大型语言模型(LLMs)的多语言机制对其内部表示的共享程度进行研究,并发现语言分享模式受任务类型和输入的影响,所有共享神经元在生成正确响应中起关键作用,增加所有共享神经元可以提高多语言任务的准确性。
Jun, 2024
本研究揭示了多语种预训练语言模型中的事实知识是如何存储在参数中的,并引入了架构适应性多语种集成梯度方法,它相比现有方法更准确地定位知识神经元,并且在不同的架构和语言中更具普适性。此外,我们对知识神经元进行了深入探索,发现了两个重要发现:(1) 存储跨语言事实知识的语言无关知识神经元的发现;(2) 退化知识神经元的发现,它表明不同的知识神经元可以存储相同的事实。实验证明了这些发现,并为多语种预训练语言模型中事实知识存储的机制提供了宝贵的见解,源代码将公开供进一步研究使用。
Aug, 2023
本研究提出了两种方法,即语言嵌入体现和语言感知多头注意力,以学习信息量丰富的语言表示,从而缓解在多语言神经机器翻译模型中引导翻译的语言令牌的失效问题,并且在两个大规模多语言神经机器翻译数据集上取得了显著的性能提升。同时,进一步的语言类型学预测实验证明,我们的方法学习到的基于矩阵的语言表示可以捕捉丰富的语言类型学特征。
Sep, 2022
大型语言模型在跨多种语言表现出卓越的性能。本文探讨了大型语言模型处理多语言的方式,提出了一个处理多语言输入的框架,并利用该框架验证其有效性,并展示如何通过该框架有效提升多语言能力。
Feb, 2024