代码巨基:面向代码的开放基础模型
TinyLlama 是一个小型预训练语言模型,通过利用开源社区的先进技术(如 FlashAttention)提高计算效率,在一系列下游任务中表现出色,超过了同规模的现有开源语言模型。
Jan, 2024
我们开发并发布了称为 Llama 2 的预训练和微调的大型语言模型集合,该集合的规模从 70 亿到 700 亿参数不等。称为 Llama 2-Chat 的我们的微调语言模型在大多数测试中优于开源聊天模型,并根据我们的人工评估显示对于有用性和安全性而言可能是闭源模型的合适替代品。我们提供了我们微调和安全性改进方法的详细说明,以便使社区能够在我们的工作基础上进行拓展,并为 Llama 2 的负责任发展做出贡献。
Jul, 2023
介绍了 LLaMA,包含 7B 至 65B 个参数的基础语言模型,使用公开可用的数据集训练,其中 LLaMA-13B 在大多数基准测试中优于 GPT-3(175B),LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。
Feb, 2023
CodeShell-Base 是一个七十亿参数的基础模型,具有 8K 上下文长度,通过将 Grouped-Query Attention 和 Rotary Positional Embedding 整合到 GPT-2 中,它集成了 StarCoder 和 CodeLlama 的结构优点,并形成了独特的架构设计。经过综合的数据预处理过程,我们从 GitHub 中策划了 1000 亿条高质量的预训练数据。在仅训练 5000 亿个标记(5 个时期)之后,CodeShell-Base 在 Humaneval 上胜过了 CodeLlama,并在多个语言数据集上进行了广泛实验,包括 Python、Java 和 C++,结果显示我们的模型在代码理解和生成方面具有坚实的基础能力。
Mar, 2024
我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
我们提出了 Llemma 这个大型数学语言模型,通过将 Code Llama 进行预训练得到了 Llemma,并在 MATH 基准测试中表现优于所有已知的开源基础模型,同时还能进行工具使用和形式定理证明而无需进一步微调。
Oct, 2023
LLamaFactory 是一个统一的框架,集成了一套先进的高效训练方法,用户可以通过内置的 Web 界面 LlamaBoard 灵活地自定义 100 多个大型语言模型(LLMs)的微调,我们在语言建模和文本生成任务上经验性地验证了该框架的效率和有效性。
Mar, 2024
为了在低资源环境下利用,开发了两种紧凑的巴西葡萄牙文本生成模型,发布在 GitHub 和 Hugging Face 上供社区使用和进一步开发。
Jan, 2024
这篇论文介绍 BigCode 社区的开源科学协作计划,具体讨论了基于 GitHub 数据和 Fine-tuning 方法所训练的大规模语言模型 StarCoder 和 StarCoderBase,证明加强的 PII 去识别流程和追溯工具等重要措施可以更安全地发布模型,并公开发布符合开源 AI 模型许可证商业版本的 StarCoder 模型。
May, 2023