Jun, 2024

LongSkywork:用于大型语言模型中高效扩展上下文长度的训练方法

TL;DRLongSkywork 是一种具有长上下文处理能力的大型语言模型 (LLM),通过在标准 SFT 阶段之后添加长上下文 SFT 阶段来增强长上下文处理能力,使用合成数据的方法显著提高了训练效率,并在各种长上下文基准测试中取得了出色的表现。