Mistral 7B
比较了大型语言模型和中型开源模型在临床任务上的表现,发现 Mistral 7B 是表现最佳的模型,并且在临床问题回答任务和消费者查询回答任务上优于专门为生物医学领域训练的模型。
Apr, 2024
利用零射击和单射击翻译提示在医学领域内进行了 Mistral 7B 大型通用语言模型 (LLM) 的微调,以提高其实时自适应机器翻译能力,结果显示其对西班牙语到英语机器翻译的质量改进超过了基准性能,并且其零射击翻译与 NLLB 3.3B 的性能相匹配,单射击翻译质量超过了 NLLB 3.3B 的性能,明确了微调高效 LLMs 像 Mistral 7B 的重要性,以产生与任务导向模型相当的高质量零射击翻译。
Dec, 2023
引入了 Mixtral 8x7B,一种稀疏的专家混合(SMoE)语言模型,采用了与 Mistral 7B 相同的架构,每个层由 8 个前馈块(即专家)组成,并通过路由网络选择两个专家处理当前状态和组合它们的输出,最终得到使用 13B 活跃参数的 47B 参数模型,在数学、代码生成和多语言基准测试中表现优秀,并提供了针对指令的精调模型 Mixtral 8x7B - Instruct,在人类基准测试中超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - chat model。
Jan, 2024
我们提出了一种改进的训练方法,使用更大的模型的知识来提高大型语言模型的训练效果,同时利用领域专家模型进行领域对齐,通过这种方法,在性能上超过了具有更大参数数量的现有语言模型。
Jun, 2024
本文介绍了 SaulLM-7B,一个专为法律领域设计的大型语言模型 (LLM),它具有 70 亿个参数,是第一个专门用于法律文本理解和生成的 LLM。利用 Mistral 7B 架构作为基础,SaulLM-7B 在超过 300 亿个标记的英文法律语料库上进行训练。SaulLM-7B 在理解和处理法律文件方面展现了最先进的能力。此外,我们提出了一种新颖的指导微调方法,利用法律数据集进一步提高 SaulLM-7B 在法律任务中的性能。SaulLM-7B 以 CC-BY-SA-4.0 许可证发布。
Mar, 2024
本研究介绍了在 32.6GB 数据集上对 Mistral 7B 进行预训练的重要进展,研究中探索了扩展上下文长度的影响,发布了具有 4096 和 32768 标记的上下文长度模型,并通过专门调优的 16384 标记的上下文长度模型 ——Malaysian Mistral,进一步提升了性能。实验证明了持续预训练的效果以及扩展上下文长度对 Mistral 7B 的语言理解能力的影响。此外,该研究还通过与其他著名语言模型的基准测试(包括 ChatGPT3.5 和 Claude 2)做对比,展示了 Malaysian Mistral 在塔塔巴哈萨(马来语法)测试集上表现出卓越性能,特别是在配合指令进行微调时。
Jan, 2024
BioMistral 是一个开源的、专门针对生物医学领域的大型语言模型,通过基于 Mistral 模型并在 PubMed Central 上进行进一步预训练来实现。我们在包含 10 个既定医疗问答任务的基准测试上对 BioMistral 进行了全面评估,同时探索了通过量化和模型合并方法获得的轻量级模型。我们的结果表明,与现有的开源医学模型相比,BioMistral 具有出色的性能,并且在与专有模型的竞争中有竞争优势。此外,为了解决英语以外数据的有限可用性,并评估医学领域中多语言的泛化能力,我们将该基准测试自动翻译和评估为其他 7 种语言。这标志着医学领域中大规模多语言评估的首次实现。在我们的实验中获得的数据集、多语言评估基准、脚本以及所有模型都可以免费获取。
Feb, 2024
Breeze-7B 是一种基于 Mistral-7B 的开源语言模型,旨在改进传统中文语言理解和聊天机器人能力。该技术报告概述了 Breeze-7B 模型的附加预训练、微调和评估阶段。Breeze-7B 系列的基本模型和聊天模型表现出较好的语言理解和聊天机器人任务的性能,在几个基准测试中达到了与其复杂性类似模型中的最佳水平。
Mar, 2024
LLMOps 成本高、透明度低、模型训练方法和数据缺乏一致性,为解决这些问题,LMM Efficieny Challenge 提出了在有限时间内利用单一 GPU 对基础模型进行微调的任务,研究介绍了 Birbal,该模型经过精心设计的指导说明覆盖多个任务,成功地在一个 RTX 4090 上实现了 35% 的性能提升。
Mar, 2024
对 7 和 13 亿规模的大型语言模型 (Large Language Models, LLMs) 进行了性能评估,经过量化处理后在家用硬件上运行。通过包含 1,006 个巴西国家中学考试 (ENEM) 问题的数据库进行模型效果评估,最佳模型对原文葡萄牙语问题和其英文翻译的准确性分别达到约 46% 和 49%。此外,通过执行时间衡量模型的计算效率,7 和 13 亿规模的 LLMs 分别在装备 AMD Ryzen 5 3600x 处理器的机器上平均需要大约 20 秒和 50 秒来处理查询。
Sep, 2023