LLaMAntino: LLaMA 2 模型在意大利语文本生成中的有效应用

Dec, 2023

LLaMAntino: LLaMA 2 模型在意大利语文本生成中的有效应用

LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language

Pierpaolo Basile, Elio Musacchio, Marco Polignano, Lucia Siciliani, Giuseppe Fiameni...

TL;DR通过采用开放科学方法，研究探索了各种调整方法，以确保在原始模型数据集中不常见的意大利语适用于许多任务的高质量意大利语生成模型，为意大利语的语言适应策略贡献了 LLaMAntino 意大利语 LLM 家族的创新。

Abstract

large language models represent state-of-the-art linguistic models designed to equip computers with the ability to comprehend natural language. With its exceptional capacity to capture complex contextual relationships, the →

large language models llama natural language processing language adaptation italian language

发现论文，激发创造

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

意大利语的先进基于自然的交互：LLaMAntino-3-ANITA

为了推进意大利语的自然语言处理，我们引入了一种基于新型 Meta LLaMA-3 模型的最先进的大型语言模型（LLM）: LLaMAntino-3-ANITA-8B-Inst-DPO-ITA。我们使用英语和意大利语语料库上的监督微调（SFT）技术对原始的 8B 参数指导调整模型进行了微调，以提高其性能。同时，我们使用动态偏好优化（DPO）过程对模型进行了优化，以确保生成内容与高质量答案一致。这一模型在文本补全、零样本分类和上下文理解等多种任务中表现出色，经过对意大利语和英语标准基准的广泛评估，结果非常出色。该模型可以在 HuggingFace hub 上免费获取，并且我们的 GitHub 存储库中有使用示例。

May, 2024

Camoscio：意大利指令调优的 LLaMA

通过使用 LoRA 和 ChatGPT 翻译的指令提示的语料库，我们精调了最小的变体 LLaMA（7b），在意大利语中为用户的提示引入了专门定制的语言模型 Camoscio。结果表明，该模型在多个意大利语下游任务中的零 - shot 性能与专门为这些任务进行精调的现有模型相媲美。

Jul, 2023

翻译困境：大型语言模型在非英语内容分析中的应用

本文介绍了多语种语言模型的工作原理及其在语言分析和生成方面的能力和局限性，并提供了关于开展大型和多语种语言模型研究、开发和部署时的建议。

Jun, 2023

LLaMA 跨越英语：语言能力转移的实证研究

我们通过对 LLaMA 的实证研究发现，在使用不到 1% 的预训练数据时，可以实现与最先进的转移模型相媲美的性能，无论是在知识对齐还是响应质量方面，这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。

Jan, 2024

MaLA-500: 大规模语言模型的大规模语言适应

为了弥补大型语言模型在低资源语言方面的不足，本研究引入了 MaLA-500，一个设计用于覆盖 534 种语言范围的新型大型语言模型。通过词汇扩展和持续的预训练，MaLA-500 在 SIB-200 上的实验表明其实现了最新的上下文学习结果。我们将 MaLA-500 发布在指定的 URL 上。

Jan, 2024

Me LLaMA: 基于大型语言模型的医疗应用基础

这项研究介绍了 Me LLaMA，这是一个医学领域的大型语言模型（LLM）家族，包括基础模型 Me LLaMA 13/70B 和增强聊天版本 Me LLaMA 13/70B-chat。通过在大型医学数据上进行持续预训练和指导调整，Me LLaMA 模型在医学任务上表现优于其他医学 LLMs，适用于医学人工智能应用。

Feb, 2024

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

大型语言模型在非洲语言上的表现如何？

近期，在自然语言处理方面的最新进展中，大型语言模型（LLM）得到了广泛应用，它们在上下文学习下表现出良好性能，甚至适用于未知的任务和语言。然而，它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型（mT0，LLaMa 2 和 GPT-4）在 30 种非洲语言上的五个任务（新闻主题分类，情感分类，机器翻译，问答和命名实体识别）的表现。结果显示，所有的大型语言模型在非洲语言上的表现都低于水平，与英语等高资源语言相比，性能差距较大。我们发现，GPT-4 在分类任务上表现平均或令人印象深刻，但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是，我们发现 mT0 在非洲语言上的跨语言问答表现最佳，超过了最先进的有监督模型（即，微调的 mT5）和 GPT-4 的表现。总体而言，由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库，因此其表现最差。总的来说，我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表，因为这些模型越来越受欢迎。

Nov, 2023

增强 Amharic-LLaMA：整合任务特定和生成型数据集

通过整合任务特定数据集和生成数据集，我们改进了 LLaMA-2-Amharic 模型，提高了其对阿姆哈拉语的语言模型性能，并公开了我们的数据集创建流程、指导性数据集、训练模型和评估结果，以促进针对特定语言的研究。

Feb, 2024