Jun, 2024

探索LLM训练中跨语言对齐的出现

TL;DR多语言大型语言模型通过隐式对齐语言和神经元重叠达到零-shot 跨语言转移性能,本研究使用内在探测技术通过检查点观察到神经元重叠和下游性能之间的高相关性,同时探测到预训练过程中隐式对齐和多语言能力的退化现象,为多语言预训练动态提供了新的见解。