LLaMAntino: LLaMA 2 模型在意大利语文本生成中的有效应用
介绍了 LLaMA,包含 7B 至 65B 个参数的基础语言模型,使用公开可用的数据集训练,其中 LLaMA-13B 在大多数基准测试中优于 GPT-3(175B),LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。
Feb, 2023
为了推进意大利语的自然语言处理,我们引入了一种基于新型 Meta LLaMA-3 模型的最先进的大型语言模型(LLM): LLaMAntino-3-ANITA-8B-Inst-DPO-ITA。我们使用英语和意大利语语料库上的监督微调(SFT)技术对原始的 8B 参数指导调整模型进行了微调,以提高其性能。同时,我们使用动态偏好优化(DPO)过程对模型进行了优化,以确保生成内容与高质量答案一致。这一模型在文本补全、零样本分类和上下文理解等多种任务中表现出色,经过对意大利语和英语标准基准的广泛评估,结果非常出色。该模型可以在 HuggingFace hub 上免费获取,并且我们的 GitHub 存储库中有使用示例。
May, 2024
通过使用 LoRA 和 ChatGPT 翻译的指令提示的语料库,我们精调了最小的变体 LLaMA(7b),在意大利语中为用户的提示引入了专门定制的语言模型 Camoscio。结果表明,该模型在多个意大利语下游任务中的零 - shot 性能与专门为这些任务进行精调的现有模型相媲美。
Jul, 2023
本文介绍了多语种语言模型的工作原理及其在语言分析和生成方面的能力和局限性,并提供了关于开展大型和多语种语言模型研究、开发和部署时的建议。
Jun, 2023
我们通过对 LLaMA 的实证研究发现,在使用不到 1% 的预训练数据时,可以实现与最先进的转移模型相媲美的性能,无论是在知识对齐还是响应质量方面,这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。
Jan, 2024
为了弥补大型语言模型在低资源语言方面的不足,本研究引入了 MaLA-500,一个设计用于覆盖 534 种语言范围的新型大型语言模型。通过词汇扩展和持续的预训练,MaLA-500 在 SIB-200 上的实验表明其实现了最新的上下文学习结果。我们将 MaLA-500 发布在指定的 URL 上。
Jan, 2024
这项研究介绍了 Me LLaMA,这是一个医学领域的大型语言模型(LLM)家族,包括基础模型 Me LLaMA 13/70B 和增强聊天版本 Me LLaMA 13/70B-chat。通过在大型医学数据上进行持续预训练和指导调整,Me LLaMA 模型在医学任务上表现优于其他医学 LLMs,适用于医学人工智能应用。
Feb, 2024
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
近期,在自然语言处理方面的最新进展中,大型语言模型(LLM)得到了广泛应用,它们在上下文学习下表现出良好性能,甚至适用于未知的任务和语言。然而,它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型(mT0,LLaMa 2 和 GPT-4)在 30 种非洲语言上的五个任务(新闻主题分类,情感分类,机器翻译,问答和命名实体识别)的表现。结果显示,所有的大型语言模型在非洲语言上的表现都低于水平,与英语等高资源语言相比,性能差距较大。我们发现,GPT-4 在分类任务上表现平均或令人印象深刻,但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是,我们发现 mT0 在非洲语言上的跨语言问答表现最佳,超过了最先进的有监督模型(即,微调的 mT5)和 GPT-4 的表现。总体而言,由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库,因此其表现最差。总的来说,我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表,因为这些模型越来越受欢迎。
Nov, 2023
通过整合任务特定数据集和生成数据集,我们改进了 LLaMA-2-Amharic 模型,提高了其对阿姆哈拉语的语言模型性能,并公开了我们的数据集创建流程、指导性数据集、训练模型和评估结果,以促进针对特定语言的研究。
Feb, 2024