Fauno：意大利大型语言模型，让你无语！

Jun, 2023

Fauno：意大利大型语言模型，让你无语！

Fauno: The Italian Large Language Model that will leave you senza parole!

Andrea Bacciu, Giovanni Trappolini, Andrea Santilli, Emanuele Rodolà, Fabrizio Silvestri

TL;DR本文介绍了 Fauno，第一个也是最大的开源意大利会话型大型语言模型（LLM）。我们的目标是民主化意大利 LLM 的研究，证明使用单个 GPU 获得精细调整的会话机器人是可能的。此外，我们发布了用于意大利会话 AI 的数据集。

Abstract

This paper presents fauno, the first and largest open-source Italian conversational Large Language Model (LLM). Our goal with fauno is to democratize the study of LLMs in Italian, demonstrating that obtaining a f

fauno italian conversational llm democratize study datasets code

发现论文，激发创造

Camoscio：意大利指令调优的 LLaMA

通过使用 LoRA 和 ChatGPT 翻译的指令提示的语料库，我们精调了最小的变体 LLaMA（7b），在意大利语中为用户的提示引入了专门定制的语言模型 Camoscio。结果表明，该模型在多个意大利语下游任务中的零 - shot 性能与专门为这些任务进行精调的现有模型相媲美。

Jul, 2023

LLaMAntino: LLaMA 2 模型在意大利语文本生成中的有效应用

通过采用开放科学方法，研究探索了各种调整方法，以确保在原始模型数据集中不常见的意大利语适用于许多任务的高质量意大利语生成模型，为意大利语的语言适应策略贡献了 LLaMAntino 意大利语 LLM 家族的创新。

Dec, 2023

意大利语的先进基于自然的交互：LLaMAntino-3-ANITA

为了推进意大利语的自然语言处理，我们引入了一种基于新型 Meta LLaMA-3 模型的最先进的大型语言模型（LLM）: LLaMAntino-3-ANITA-8B-Inst-DPO-ITA。我们使用英语和意大利语语料库上的监督微调（SFT）技术对原始的 8B 参数指导调整模型进行了微调，以提高其性能。同时，我们使用动态偏好优化（DPO）过程对模型进行了优化，以确保生成内容与高质量答案一致。这一模型在文本补全、零样本分类和上下文理解等多种任务中表现出色，经过对意大利语和英语标准基准的广泛评估，结果非常出色。该模型可以在 HuggingFace hub 上免费获取，并且我们的 GitHub 存储库中有使用示例。

May, 2024

Cerbero-7B: 通过增强对话语料库生成和评估实现语言特定 LLM 的重大进展

该研究介绍了使用自我聊天机制生成高质量、语言特定的聊天语料库的新方法。我们结合了一个生成器 LLM 以创建新样本，并使用一个嵌入器 LLM 以确保多样性。我们提出了一种基于蒙板语言模型（MLM）的质量评估度量方法，用于评估和过滤语料库。利用 llama2-70b 作为生成器和多语言句子转换器作为嵌入器，我们生成了意大利聊天语料库并改进了基于翻译的英语 ChatGPT 自我聊天数据的 Fauno 语料库。改进使用了结构断言和自然语言处理技术。这两个语料库都经过了基于提出的 MLM 模型的全面质量评估。用这些语料库来微调意大利 LLM 可以显著提升语言理解和问答能力。由此产生的模型 cerbero-7b 为意大利 LLM 建立了一个新的最先进水平。这种方法标志着发展语言特定 LLM 的重大进展，特别强调增加支持意大利等少数语言的语料库。

Nov, 2023

TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练

为了在低资源环境下利用，开发了两种紧凑的巴西葡萄牙文本生成模型，发布在 GitHub 和 Hugging Face 上供社区使用和进一步开发。

Jan, 2024

Quokka: 一个面向材料科学的开源大型语言模型聊天机器人

本文介绍了一种专门用于材料科学的聊天机器人的开发，利用了 Llama-2 语言模型，并在 S2ORC 数据集中的广阔研究论文上继续进行预训练。该方法包括对 100 万多个领域特定论文进行初步预训练，然后通过指令调整过程来改进聊天机器人的能力。该聊天机器人旨在通过为材料科学领域的查询提供即时的、上下文感知的回复，来帮助研究人员、教育工作者和学生。我们提供了四个经过训练的检查点（7B、13B，具有或不具有聊天功能），供研究社区免费使用。

Jan, 2024

Tamil-Llama：基于 Llama 2 的新泰米尔语言模型

通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型，本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练，以保证计算可行性和模型的稳健性。此外，我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进，对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码，进一步强调我们对开放研究的承诺，促进语言建模领域的进一步创新。

Nov, 2023

Almawave-SLU：意大利语 SLU 的新数据集

本研究介绍了第一个用于意图检测和语义槽理解的意大利数据集，并使用半自动化过程来建立该数据集，用于各种开源和商业系统的性能基准测试。

Jul, 2019

大型语言模型在扩展口语理解系统到新语言方面的应用

介绍了一种使用大型语言模型进行机器翻译的流水线，用于扩展语音助手系统的口语理解模型，提高了多语言场景和设备本地场景下的整体准确率。

Apr, 2024

ChatLaw: 带外部知识库集成的开源法律大语言模型

本文介绍了一个名为 ChatLaw 的开源法律大语言模型，它通过特定的数据集、关键词检索和自注意力机制来优化模型在法律领域的表现，解决了参考数据筛选过程中的模型幻觉问题，提升了其解决问题的能力。

Jun, 2023