Camoscio:意大利指令调优的 LLaMA
通过采用开放科学方法,研究探索了各种调整方法,以确保在原始模型数据集中不常见的意大利语适用于许多任务的高质量意大利语生成模型,为意大利语的语言适应策略贡献了 LLaMAntino 意大利语 LLM 家族的创新。
Dec, 2023
本文介绍了 Fauno,第一个也是最大的开源意大利会话型大型语言模型(LLM)。我们的目标是民主化意大利 LLM 的研究,证明使用单个 GPU 获得精细调整的会话机器人是可能的。此外,我们发布了用于意大利会话 AI 的数据集。
Jun, 2023
该研究介绍了使用自我聊天机制生成高质量、语言特定的聊天语料库的新方法。我们结合了一个生成器 LLM 以创建新样本,并使用一个嵌入器 LLM 以确保多样性。我们提出了一种基于蒙板语言模型(MLM)的质量评估度量方法,用于评估和过滤语料库。利用 llama2-70b 作为生成器和多语言句子转换器作为嵌入器,我们生成了意大利聊天语料库并改进了基于翻译的英语 ChatGPT 自我聊天数据的 Fauno 语料库。改进使用了结构断言和自然语言处理技术。这两个语料库都经过了基于提出的 MLM 模型的全面质量评估。用这些语料库来微调意大利 LLM 可以显著提升语言理解和问答能力。由此产生的模型 cerbero-7b 为意大利 LLM 建立了一个新的最先进水平。这种方法标志着发展语言特定 LLM 的重大进展,特别强调增加支持意大利等少数语言的语料库。
Nov, 2023
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。
Nov, 2023
为了推进意大利语的自然语言处理,我们引入了一种基于新型 Meta LLaMA-3 模型的最先进的大型语言模型(LLM): LLaMAntino-3-ANITA-8B-Inst-DPO-ITA。我们使用英语和意大利语语料库上的监督微调(SFT)技术对原始的 8B 参数指导调整模型进行了微调,以提高其性能。同时,我们使用动态偏好优化(DPO)过程对模型进行了优化,以确保生成内容与高质量答案一致。这一模型在文本补全、零样本分类和上下文理解等多种任务中表现出色,经过对意大利语和英语标准基准的广泛评估,结果非常出色。该模型可以在 HuggingFace hub 上免费获取,并且我们的 GitHub 存储库中有使用示例。
May, 2024
介绍了 PMC-LLaMA, 一种在 4.8 百万篇生物医学论文上 fine-tuning 得到的语言模型,用于注入医学知识,提高在医学领域的性能,经过初步试验后在生物医学数据集上表现出更好的理解生物医学特定概念,在 QA 基准上表现出高性能。
Apr, 2023
使用数据扩充方法,我们训练了一个多模态的阿姆哈拉语大型语言模型 (LLM),并引入了一个用于评估的阿姆哈拉语版本的基准数据集。
Mar, 2024
OLMo 是一种最先进且真正开放的语言模型,其框架用于构建和研究语言建模的科学。通过提供模型权重、推理代码以及训练和评估代码等整个框架,我们希望这一发布能够增强开放研究社区的实力,并激发创新的新浪潮。
Feb, 2024
这项研究介绍了 Me LLaMA,这是一个医学领域的大型语言模型(LLM)家族,包括基础模型 Me LLaMA 13/70B 和增强聊天版本 Me LLaMA 13/70B-chat。通过在大型医学数据上进行持续预训练和指导调整,Me LLaMA 模型在医学任务上表现优于其他医学 LLMs,适用于医学人工智能应用。
Feb, 2024
Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.
Jun, 2024