扩容Granite代码模型至128K上下文

Jul, 2024

Scaling Granite Code Models to 128K Context

Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula...

TL;DR该论文介绍了长上下文Granite代码模型，它支持有效的长达128K令牌的上下文窗口。我们的解决方案通过逐渐增加RoPE基本频率，采用存储库级文件打包和长度上采样的长上下文数据的轻量级持续预训练，将Granite 3B/8B代码模型的上下文长度从2K/4K扩展到128K。此外，我们还发布了经过指令调优且支持长上下文的模型，这些模型是通过在允许的短期和长期上下文指令响应对上进一步微调长上下文基础模型获得的。与原始的短上下文Granite代码模型相比，我们的长上下文模型在长上下文任务上取得了显著的改进，而在常规代码完成基准测试（例如，HumanEval）上没有任何明显的性能下降。我们以Apache 2.0许可证发布我们的全部长上下文Granite代码模型，供科研和商业使用。

Abstract

This paper introduces long-context granite code models that support effective context windows of up to 128K tokens. Our solution for scaling cont

发现论文，激发创造

LongCoder：面向代码自动补全的长距离预训练语言模型

本文介绍了一种新的代码补全任务，提出了一种称为LongCoder的稀疏Transformer模型来解决这个任务。LongCoder采用滑动窗口机制进行自我注意，并引入了两种全局可访问的标记-桥接标记和内存标记-以提高性能和效率。实验结果表明，LongCoder在维护推理时的计算资源效率方面保持相当的效率，在代码完成任务中比先前的模型性能更优秀。

Jun, 2023

基础模型的长文本推理能力优化

我们介绍了一系列支持高达32,768个令牌的有效上下文窗口的长上下文LLMs。通过从Llama 2开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于Llama 2取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B变体已经超过了gpt-3.5-turbo-16k在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了Llama的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

DeepSeek LLM: 以长期主义为基础扩展开源语言模型

通过研究扩展定律，我们发现了DeepSeek LLM在两种常用的开源配置下，7B和67B，用于扩展大规模模型的独特发现，并介绍了DeepSeek LLM项目的长期前景。通过创建包含2万亿标记的数据集并不断扩展，来支持预训练阶段。我们在DeepSeek LLM基础模型上进行有监督的微调和直接偏好优化，从而创建了DeepSeek Chat模型。评估结果表明，DeepSeek LLM 67B在各种基准测试中均超过LLaMA-2 70B，尤其在代码、数学和推理领域。此外，开放式评估显示DeepSeek LLM 67B Chat在性能上优于GPT-3.5。

Jan, 2024

从4K到400K：用激活信标扩展LLM的上下文

利用Activation Beacon插件来压缩语言模型的原始激活，从而使其在有限上下文窗口的情况下能感知更长的上下文，提高LLM的长文本处理能力。

Jan, 2024

LongAlign: 大型语言模型的长文本对齐配方

扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调，本文提出了LongAlign框架，包括长篇背景对齐的指导数据、训练和评估方法，通过Self-Instruct构建了包含各种长篇背景任务的数据集，采用打包和排序批处理策略加快有差异长度分布的数据的监督微调，引入了损失权重方法以平衡打包训练过程中不同序列对损失的贡献，并引入了LongBench-Chat测试基准来评估对1万至10万字查询的指导跟进能力，实验证明LongAlign在长篇背景任务中性能比现有的大型语言模型框架提升了30％，同时保持了对短语、通用任务的熟练处理能力。

Jan, 2024

面向扩展语言模型至128K上下文的数据工程

本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到128K，重点关注数据工程。我们假设长篇背景建模，特别是“能够在任意输入位置利用信息”的能力在大规模预训练中已经获得，而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况（例如，从4K延伸到128K）。我们研究了持续预训练的“数量”和“质量”：（1）对于数量，我们表明5亿到50亿个标记足以使模型能够检索到128K上下文中的任何信息；（2）对于质量，我们的结果同样强调了“领域平衡”和“长度上采样”。具体来说，我们发现像书籍这样的特定领域上的长数据简单上采样，这是现有工作的常见做法，会得到次优性能，而平衡的领域混合是重要的。我们证明使用1B-50B个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到128K的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型，并缩小了与GPT-4 128K等前沿模型之间的差距。

Feb, 2024

花岗岩代码模型：一系列针对代码智能的开放基础模型

为了发挥代码LLMs的全部潜力，我们引入了一系列解码器专用的Granite代码模型，用于代码生成任务，该模型在多项任务中表现出了最新的性能，为企业软件开发工作流程进行优化。

May, 2024

LongSkywork：用于大型语言模型中高效扩展上下文长度的训练方法

LongSkywork是一种具有长上下文处理能力的大型语言模型 (LLM)，通过在标准SFT阶段之后添加长上下文SFT阶段来增强长上下文处理能力，使用合成数据的方法显著提高了训练效率，并在各种长上下文基准测试中取得了出色的表现。

Jun, 2024

长代码竞技场：长上下文代码模型的一组基准

通过引入Long Code Arena作为一套六个代码处理任务的基准，我们旨在填补超出单个上下文文件的代码处理基准的空白。这些任务涵盖了代码处理的不同方面：基于库的代码生成、CI构建修复、项目级代码补全、提交消息生成、错误定位和模块摘要。

Jun, 2024

层次上下文剪枝：通过仓库级预训练代码语言模型优化实际代码补全

维护文件之间的拓扑依赖性和增加代码文件内容可提高完成准确性，修剪所有相关文件中函数的特定实现并不会显著降低完成准确性。基于这些发现，我们提出了一种名为 Hierarchical Context Pruning (HCP) 的策略，以高信息代码内容构建完成提示，该策略在函数级别模拟代码存储库，减少了用于代码完成的输入长度。实验结果表明，我们的方法可以显著提高完成准确性，并大大减少输入长度。

Jun, 2024