Oct, 2023

基于 RoPE 的外推尺度定律

TL;DR使用 RoPE 为基础的大型语言模型,通过调整基值和微调文本长度能够显著增强其外推性能,本文提出了从周期性角度描述外推性能与基值及调整文本长度之间关系的统一框架,并解释了外推问题的起源和关键维度,同时在 LLaMA2 7B 和 13B 数据集上实现了高达 100 万上下文长度的外推。