BriefGPT.xyz
Nov, 2024
跨时间和规模的变压器逐字上下文检索
Transformer verbatim in-context retrieval across time and scale
HTML
PDF
Kristijan Armeni, Marko Pranjić, Senja Pollak
TL;DR
本研究解决了语言模型在预测文本时逐字检索上下文信息的能力发展问题。通过对模型训练过程的分析,我们发现这种逐字检索能力在训练早期的突然转变中出现,并与零样本基准的学习呈正相关。该研究的主要发现是,具体名词的检索优势在训练初期显著,但最终会逐渐减弱,这为理解语言模型的学习机制提供了重要见解。
Abstract
To predict upcoming text,
language models
must in some cases retrieve in-context information verbatim. In this report, we investigated how the ability of
language models
to retrieve arbitrary in-context nouns dev
→