BriefGPT.xyz
Feb, 2024
大型语言模型中的语言区域揭示
Unveiling Linguistic Regions in Large Language Models
HTML
PDF
Zhihao Zhang, Jun Zhao, Qi Zhang, Tao Gui, Xuanjing Huang
TL;DR
通过对语言模型的功能区域进行探索,揭示了其智能化基础,发现其核心区域与语言能力相关,移除该区域会显著降低其性能,在不同的单语家族中存在不同的区域,并且破坏这些特定区域会大幅降低多语言模型在相应语言中的能力。此外,冻结核心语言区域在进一步预训练中可以缓解灾难性遗忘问题。
Abstract
large language models
(LLMs) have demonstrated considerable
cross-lingual alignment
and generalization ability. Current research primarily focuses on improving LLMs' cross-lingual generalization capabilities. How
→