XGen-7B 技术报告

Sep, 2023

XGen-7B Technical Report

Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia...

TL;DR我们训练了 XGen，这是一系列包含 70 亿参数的模型，可支持长度达 8K 的序列，同时通过公共领域的指导数据进行了微调，与最先进的开源 LLMs 相比，在标准基准测试和长序列建模任务中表现出可比或更好的结果。

Abstract

large language models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most →

large language models open-source llms xgen 7b parameter models long sequence modeling tasks

发现论文，激发创造

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

InternLM2 技术报告

InternLM2 是一种开源的大型语言模型，通过创新的预训练和优化技术，在多个维度和 30 个基准测试中优于之前的模型，并在长文本建模和开放主观评估方面取得突出表现。该模型通过精心设计的预训练过程，使用了包括文本、代码和长文本数据在内的多种数据类型，并具备捕捉长期依赖、高效处理任务的能力。此外，通过释放不同训练阶段和模型大小的 InternLM2 模型，为社区提供了对模型演进的深入理解。

Mar, 2024

Xmodel-LM 技术报告

我们介绍了 Xmodel-LM，这是一个在超过 2 万亿个标记上进行预训练的紧凑高效的 1.1B 语言模型，通过在我们自建的数据集 (Xdata) 上进行训练，该数据集在下游任务优化的基础上平衡了中文和英文文本，尽管模型规模较小，但 Xmodel-LM 表现出色，显著超过了类似规模的现有开源语言模型。我们的模型检查点和代码在 GitHub 上公开可访问。

Jun, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

VeriGen: Verilog 代码生成的大型语言模型

通过在 Verilog 数据集上微调现有的 Large Language Models（LLMs），我们探索了使用 LLMs 自动生成高质量的 Verilog 代码的能力。微调后的开源 CodeGen-16B 模型在功能正确性上优于最先进的商业 GPT-3.5-turbo 模型，并在多样化和复杂的问题集中表现出竞争性能，尤其在某些场景下显示了对生成正确 Verilog 代码的潜力，突出了内部小型 LLMs 在硬件设计自动化方面的潜力。

Jul, 2023

Open-SQL 框架：在开源大型语言模型上增强文本到 SQL 转换

我们提出了一种针对开源大型语言模型在 Text-to-SQL 任务中的上下文理解和响应连贯性问题的系统方法，包括对开源大型语言模型在 Text-to-SQL 任务中的全面评估，以及用于有效问题表示的 openprompt 策略、监督微调的新策略、步骤推理中 Chain-of-Thought 的优势探索和用于增强少样本学习的 openexample 方法。此外，我们引入了一些高效的技术，如可变长度的开发数据库架构、目标列截断和示例列截断，解决了大规模数据库中的挑战。我们的研究结果强调了对监督微调对上下文学习能力的影响进行进一步研究的必要性。值得注意的是，我们的方法显著提高了 Llama2-7B 在 BIRD-Dev 数据集上的性能，从 2.54% 提高到 41.04%，Code Llama-7B 在 BIRD-Dev 数据集上的性能甚至超过了 GPT-4（46.35%）。

May, 2024

Geneverse: 用于基因组学和蛋白质组学研究的开源多模态大型语言模型集合

基因组学和蛋白质组学研究中的大型语言模型（LLMs）应用前景广阔。我们提出了一种名为 Geneverse 的针对基因组学和蛋白质组学研究中三个创新任务的经过微调的 LLMs 和多模态 LLMs（MLLMs）集合。Geneverse 模型基于领域特定的数据集进行训练和评估，我们使用高级的参数高效微调技术来实现模型适应性，包括生成基因功能描述、从蛋白质结构推理蛋白功能以及从空间转录组数据中选择标记基因。我们证明经过调适的 LLMs 和 MLLMs 在这些任务中表现良好，可能在准确性和结构正确性方面优于基于闭源的大规模模型。我们所使用的所有训练策略和基本模型均可以免费获取。

Jun, 2024