BriefGPT.xyz
Oct, 2024
通过检索头理解合成上下文扩展
Understanding Synthetic Context Extension via Retrieval Heads
HTML
PDF
Xinyu Zhao, Fangcong Yin, Greg Durrett
TL;DR
该研究解决了合成上下文扩展对下游长上下文任务影响的不确定性。通过分析在合成数据上的微调效果,研究发现检索头在长上下文任务中的角色至关重要,且模型在合成数据上的表现可以通过特定的检索头来解释和预测。此研究为提高合成数据微调性能以及创建更有效的训练数据提供了新见解。
Abstract
Long-context LLMs
are increasingly in demand for applications such as retrieval-augmented generation. To defray the cost of pretraining LLMs over long contexts, recent work takes an approach of
Synthetic context extensi
→