代码巨基：面向代码的开放基础模型

Aug, 2023

代码巨基：面向代码的开放基础模型

Code Llama: Open Foundation Models for Code

Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat...

TL;DR发布了 Code Llama，这是一套基于 Llama 2 的大型代码语言模型，在开源模型中具有最先进的性能、填充能力、大尺寸输入上下文支持以及无人操作编程任务的指令跟随能力。

Abstract

We release code llama, a family of large language models for code based on Llama 2 providing state-of-the-art performance among open model

code llama large language models programming tasks state-of-the-art performance infilling capabilities

发现论文，激发创造

TinyLlama：一种开源的小型语言模型

TinyLlama 是一个小型预训练语言模型，通过利用开源社区的先进技术（如 FlashAttention）提高计算效率，在一系列下游任务中表现出色，超过了同规模的现有开源语言模型。

Jan, 2024

Llama 2: 开放基础和优化的聊天模型

我们开发并发布了称为 Llama 2 的预训练和微调的大型语言模型集合，该集合的规模从 70 亿到 700 亿参数不等。称为 Llama 2-Chat 的我们的微调语言模型在大多数测试中优于开源聊天模型，并根据我们的人工评估显示对于有用性和安全性而言可能是闭源模型的合适替代品。我们提供了我们微调和安全性改进方法的详细说明，以便使社区能够在我们的工作基础上进行拓展，并为 Llama 2 的负责任发展做出贡献。

Jul, 2023

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

代码外壳技术报告

CodeShell-Base 是一个七十亿参数的基础模型，具有 8K 上下文长度，通过将 Grouped-Query Attention 和 Rotary Positional Embedding 整合到 GPT-2 中，它集成了 StarCoder 和 CodeLlama 的结构优点，并形成了独特的架构设计。经过综合的数据预处理过程，我们从 GitHub 中策划了 1000 亿条高质量的预训练数据。在仅训练 5000 亿个标记（5 个时期）之后，CodeShell-Base 在 Humaneval 上胜过了 CodeLlama，并在多个语言数据集上进行了广泛实验，包括 Python、Java 和 C++，结果显示我们的模型在代码理解和生成方面具有坚实的基础能力。

Mar, 2024

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

元元大型语言模型编译器：编译优化基本模型

通过 Meta Large Language Model Compiler (LLM Compiler) 提供的编译器优化用户界面，可以更好地理解中间表示 (IR)、汇编语言和优化技术。该模型经过数百亿个 LLVM-IR 和汇编代码令牌的训练，并在指令微调中提高了对编译器行为的理解。LLM Compiler 旨在为学术研究人员和行业从业者在编译器优化方面提供可扩展、具有成本效益的基础。

Jun, 2024

优化大型语言模型对 OpenAPI 代码补全的应用

该研究评估了 GitHub Copilot 在 OpenAPI 完成度方面的性能，并提出了一组针对任务的特定优化，利用了 Meta 的开源模型 Code Llama。该研究还提出了一种语义感知的 OpenAPI 完成度基准方法，并通过一系列实验分析了各种提示工程和微调技术对 Code Llama 模型性能的影响。经过微调的 Code Llama 模型在参数数量比商业解决方案 Codex 模型的基础下少 25 倍的情况下，将正确性改进达到了 55.2% 的峰值。此外，该研究还提出了一种改进的代码插入训练技术，解决了模型在提示上下文大小小于训练时使用的大小时性能不佳的问题。

May, 2024

Llemma: 数学领域的开放语言模型

我们提出了 Llemma 这个大型数学语言模型，通过将 Code Llama 进行预训练得到了 Llemma，并在 MATH 基准测试中表现优于所有已知的开源基础模型，同时还能进行工具使用和形式定理证明而无需进一步微调。

Oct, 2023

LlamaFactory: 统一高效微调 100 + 语言模型

LLamaFactory 是一个统一的框架，集成了一套先进的高效训练方法，用户可以通过内置的 Web 界面 LlamaBoard 灵活地自定义 100 多个大型语言模型（LLMs）的微调，我们在语言建模和文本生成任务上经验性地验证了该框架的效率和有效性。

Mar, 2024

TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练

为了在低资源环境下利用，开发了两种紧凑的巴西葡萄牙文本生成模型，发布在 GitHub 和 Hugging Face 上供社区使用和进一步开发。

Jan, 2024