LLaMA：开放高效的基础语言模型

Feb, 2023

LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux...

TL;DR介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Abstract

We introduce llama, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using pu

llama language models datasets gpt-3 chinchilla

发现论文，激发创造

Me LLaMA: 基于大型语言模型的医疗应用基础

这项研究介绍了 Me LLaMA，这是一个医学领域的大型语言模型（LLM）家族，包括基础模型 Me LLaMA 13/70B 和增强聊天版本 Me LLaMA 13/70B-chat。通过在大型医学数据上进行持续预训练和指导调整，Me LLaMA 模型在医学任务上表现优于其他医学 LLMs，适用于医学人工智能应用。

Feb, 2024

LLaMAntino: LLaMA 2 模型在意大利语文本生成中的有效应用

通过采用开放科学方法，研究探索了各种调整方法，以确保在原始模型数据集中不常见的意大利语适用于许多任务的高质量意大利语生成模型，为意大利语的语言适应策略贡献了 LLaMAntino 意大利语 LLM 家族的创新。

Dec, 2023

MaLA-500: 大规模语言模型的大规模语言适应

为了弥补大型语言模型在低资源语言方面的不足，本研究引入了 MaLA-500，一个设计用于覆盖 534 种语言范围的新型大型语言模型。通过词汇扩展和持续的预训练，MaLA-500 在 SIB-200 上的实验表明其实现了最新的上下文学习结果。我们将 MaLA-500 发布在指定的 URL 上。

Jan, 2024

用于中文 LLaMA 和 Alpaca 的高效有效文本编码

本研究旨在通过在大规模语言模型的基础上加强中文语义理解能力来解决其部署困难和开放性挑战，提出了 LLaMA 和 Alpaca 大规模语言模型，通过在中文数据集上进行预训练和指令微调，使其可以更好地执行指令，并通过 GitHub 开源该项目，为开放研究提供了基础资源。

Apr, 2023

阿姆哈拉语 LLaMA 和 LLaVA：低资源语言的多模态 LLMs

使用数据扩充方法，我们训练了一个多模态的阿姆哈拉语大型语言模型 (LLM)，并引入了一个用于评估的阿姆哈拉语版本的基准数据集。

Mar, 2024

Llemma: 数学领域的开放语言模型

我们提出了 Llemma 这个大型数学语言模型，通过将 Code Llama 进行预训练得到了 Llemma，并在 MATH 基准测试中表现优于所有已知的开源基础模型，同时还能进行工具使用和形式定理证明而无需进一步微调。

Oct, 2023

LLaMA 跨越英语：语言能力转移的实证研究

我们通过对 LLaMA 的实证研究发现，在使用不到 1% 的预训练数据时，可以实现与最先进的转移模型相媲美的性能，无论是在知识对齐还是响应质量方面，这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。

Jan, 2024

MaLLaM -- 马来西亚大型语言模型

MaLLaM 在马来西亚语境下训练了 1.1 亿、30 亿和 50 亿参数的模型，具有增强的马来语自然语言理解和生成任务能力，优于 ChatGPT3.5 和 Malaysian Mistral 模型，为大型语言模型在马来语上作出了重要贡献。

Jan, 2024

PLLaMa: 一个用于植物科学的开源大型语言模型

本论文介绍了 PLLaMa，这是一个开源的语言模型，它从 LLaMa-2 演变而来，通过包含超过 150 万篇植物科学论文的全面数据库，大大丰富了 PLLaMa 在植物和农业科学领域的知识和能力。我们的初步测试显示，PLLaMa 在理解与植物科学相关的主题方面得到了显著改善。此外，我们还组建了一个国际专业小组，包括植物科学家、农业工程师和植物育种专家，他们在验证 PLLaMa 对各种学术问题的回答准确性方面起着重要作用，确保其在实际应用中的有效性和可靠性。为了支持进一步的研究和开发，我们将模型的检查点和源代码提供给科研界，可在 https://github.com/Xianjun-Yang/PLLaMa 进行下载。

Jan, 2024

代码巨基：面向代码的开放基础模型

发布了 Code Llama，这是一套基于 Llama 2 的大型代码语言模型，在开源模型中具有最先进的性能、填充能力、大尺寸输入上下文支持以及无人操作编程任务的指令跟随能力。

Aug, 2023