探索LLM训练中跨语言对齐的出现
研究了现代神经语言模型的多语言训练中的字面表示空间和纯语法知识的共享,发现暴露我们的LMs与相关语言并不总是增加目标语言的语法知识,并且在语义转移的最佳条件下并不一定是语法转移的最佳条件。
Mar, 2020
使用一种新的层摘除技术和模型内部表示的分析方法,我们发现多语言 BERT 可看作两个子网络的堆叠:一个多语言编码器和一个任务特定的语言无关的预测器。编码器对于跨语言传递非常关键,在微调过程中大部分不变,而任务预测对传递影响很小,可以在微调期间重新初始化。
Jan, 2021
该研究采用神经元级别探测器,在包括43种语言的14个形态句法类别上进行了大规模的实证研究,并发现了多语言预训练模型的跨语言重叠是显著的,但其范围可能因语言接近性和预培训数据的大小而异,支持其能够对语法进行语言通用的抽象。
May, 2022
本研究旨在探究跨语言预训练模型的学习过程,发现该模型在语言内表现出较高的性能,复杂任务在低级语言技能前学习。添加不同的语言对跨语言转移的学习时机不同,并且最终模型层表现存在时间衰减现象,语言知识向网络底层传递。
May, 2022
该论文使用 Average Neuron-Wise Correlation (ANC) 作为跨语言上下文中跨语言表示相似度的替代指标,并提供了实证研究证明了先对齐再预测的跨语言学习问提存在于多语言模型中。
Dec, 2022
通过对语言模型的功能区域进行探索,揭示了其智能化基础,发现其核心区域与语言能力相关,移除该区域会显著降低其性能,在不同的单语家族中存在不同的区域,并且破坏这些特定区域会大幅降低多语言模型在相应语言中的能力。此外,冻结核心语言区域在进一步预训练中可以缓解灾难性遗忘问题。
Feb, 2024
通过将大型语言模型(LLMs)转换为专家混合(MoE)架构,分析其在处理各种语言时的专家激活模式,探索并发现非语言特定神经元和语言特定激活神经元的存在,并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性,这些发现为LLMs的多语言处理机制提供了启示,对指导LLMs的多语言训练和模型修剪具有重要意义。
Feb, 2024
通过神经元特化,提出一种解决多语言翻译中干扰和促进知识转移的方法,并通过大量实验证明了其相比强基准模型的性能提升以及减少干扰并增加知识转移的效果。
Apr, 2024
多语言大型语言模型(LLMs)的多语言机制对其内部表示的共享程度进行研究,并发现语言分享模式受任务类型和输入的影响,所有共享神经元在生成正确响应中起关键作用,增加所有共享神经元可以提高多语言任务的准确性。
Jun, 2024
本研究解决了多语言大型语言模型(LLMs)在语言能力迁移机制方面的不足,揭示出关键信息区域及其在处理相同语义内容时的神经元激活模式的相似性。研究发现,模型在训练和增大规模后会形成一个通用的语义潜在空间,从而提高跨语言处理的一致性,这一发现为今后提高大型语言模型的跨语言能力奠定了基础。
Oct, 2024