Tamil-Llama：基于 Llama 2 的新泰米尔语言模型

Nov, 2023

Tamil-Llama：基于 Llama 2 的新泰米尔语言模型

Tamil-Llama: A New Tamil Language Model Based on Llama 2

Abhinand Balachandran

TL;DR通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型，本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练，以保证计算可行性和模型的稳健性。此外，我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进，对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码，进一步强调我们对开放研究的承诺，促进语言建模领域的进一步创新。

Abstract

language modeling has witnessed remarkable advancements in recent years, with large language models (LLMs) like ChatGPT setting unparalleled benchmarks in human-like text generation. However, a prevailing limitat

language modeling large language models tamil language lora methodology indian languages

发现论文，激发创造

通过跨语言知识传递向羊驼教授一门新语言

该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型（LLMs），特别关注爱沙尼亚语。通过利用 Llama 2 模型，我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明，即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外，我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移，从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外，我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。

Apr, 2024

用于中文 LLaMA 和 Alpaca 的高效有效文本编码

本研究旨在通过在大规模语言模型的基础上加强中文语义理解能力来解决其部署困难和开放性挑战，提出了 LLaMA 和 Alpaca 大规模语言模型，通过在中文数据集上进行预训练和指令微调，使其可以更好地执行指令，并通过 GitHub 开源该项目，为开放研究提供了基础资源。

Apr, 2023

阿姆哈拉语 LLaMA 和 LLaVA：低资源语言的多模态 LLMs

使用数据扩充方法，我们训练了一个多模态的阿姆哈拉语大型语言模型 (LLM)，并引入了一个用于评估的阿姆哈拉语版本的基准数据集。

Mar, 2024

TinyLlama：一种开源的小型语言模型

TinyLlama 是一个小型预训练语言模型，通过利用开源社区的先进技术（如 FlashAttention）提高计算效率，在一系列下游任务中表现出色，超过了同规模的现有开源语言模型。

Jan, 2024

OpenLLM-Ro -- 关于从 Llama 2 开始训练的开源罗马尼亚语 LLM 的技术报告

近年来，大型语言模型（LLMs）在各种任务上已经实现了几乎人类水平的表现。尽管一些 LLMs 在多语言数据上进行了训练，但大多数训练数据仍是英文，所以它们在英文上的表现远远超过其他语言。本文介绍了我们对第一个专门用于罗马尼亚语的基础和聊天型 LLMs 进行训练和评估的方法。

May, 2024

SambaLingo: 教授大型语言模型新语言

我们详细调查了将 LLMs 适应到新语言的过程，包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题，我们的实验覆盖了 9 种语言和 2 个参数规模，并与先前的基准模型进行比较，我们的模型表现优于所有先前已发表的基准模型。

Apr, 2024

TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练

为了在低资源环境下利用，开发了两种紧凑的巴西葡萄牙文本生成模型，发布在 GitHub 和 Hugging Face 上供社区使用和进一步开发。

Jan, 2024

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

SeaLLMs — 东南亚大型语言模型

通过在 Llama-2 模型的基础上进一步扩展词汇量、专门的指令和对齐调整等方法，我们引入了专注于东南亚语言的创新语言模型系列 SeaLLMs，以解决现有大型语言模型在低资源和区域语言方面的语言偏差问题。经过全面评估，我们发现 SeaLLM-13b 模型在广泛的语言任务和助手式指令跟随能力方面表现出卓越的性能，并且在诸如泰语、高棉语、老挝语和缅甸语等非拉丁语言方面明显优于 ChatGPT-3.5 模型，并且在轻便且经济高效的操作中仍然表现出色。

Dec, 2023

LLaMAntino: LLaMA 2 模型在意大利语文本生成中的有效应用

通过采用开放科学方法，研究探索了各种调整方法，以确保在原始模型数据集中不常见的意大利语适用于许多任务的高质量意大利语生成模型，为意大利语的语言适应策略贡献了 LLaMAntino 意大利语 LLM 家族的创新。

Dec, 2023