Nov, 2024

跨时间和规模的变压器逐字上下文检索

TL;DR本研究解决了语言模型在预测文本时逐字检索上下文信息的能力发展问题。通过对模型训练过程的分析,我们发现这种逐字检索能力在训练早期的突然转变中出现,并与零样本基准的学习呈正相关。该研究的主要发现是,具体名词的检索优势在训练初期显著,但最终会逐渐减弱,这为理解语言模型的学习机制提供了重要见解。