Jul, 2024

扩容Granite代码模型至128K上下文

TL;DR该论文介绍了长上下文Granite代码模型,它支持有效的长达128K令牌的上下文窗口。我们的解决方案通过逐渐增加RoPE基本频率,采用存储库级文件打包和长度上采样的长上下文数据的轻量级持续预训练,将Granite 3B/8B代码模型的上下文长度从2K/4K扩展到128K。此外,我们还发布了经过指令调优且支持长上下文的模型,这些模型是通过在允许的短期和长期上下文指令响应对上进一步微调长上下文基础模型获得的。与原始的短上下文Granite代码模型相比,我们的长上下文模型在长上下文任务上取得了显著的改进,而在常规代码完成基准测试(例如,HumanEval)上没有任何明显的性能下降。我们以Apache 2.0许可证发布我们的全部长上下文Granite代码模型,供科研和商业使用。