BioMistral: 面向医学领域的一组开源的预训练大型语言模型

Feb, 2024

BioMistral: 面向医学领域的一组开源的预训练大型语言模型

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier...

TL;DRBioMistral 是一个开源的、专门针对生物医学领域的大型语言模型，通过基于 Mistral 模型并在 PubMed Central 上进行进一步预训练来实现。我们在包含 10 个既定医疗问答任务的基准测试上对 BioMistral 进行了全面评估，同时探索了通过量化和模型合并方法获得的轻量级模型。我们的结果表明，与现有的开源医学模型相比，BioMistral 具有出色的性能，并且在与专有模型的竞争中有竞争优势。此外，为了解决英语以外数据的有限可用性，并评估医学领域中多语言的泛化能力，我们将该基准测试自动翻译和评估为其他 7 种语言。这标志着医学领域中大规模多语言评估的首次实现。在我们的实验中获得的数据集、多语言评估基准、脚本以及所有模型都可以免费获取。

Abstract

large language models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose

large language models biomistral biomedical domain medical question-answering multilingual generalization

发现论文，激发创造

评估中型语言模型在临床问答中的潜力

比较了大型语言模型和中型开源模型在临床任务上的表现，发现 Mistral 7B 是表现最佳的模型，并且在临床问题回答任务和消费者查询回答任务上优于专门为生物医学领域训练的模型。

Apr, 2024

构建医学多语言语言模型的研究

我们旨在开发一个开源、多语言的医学语言模型，以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC，其中包含约 255 亿个标记，涵盖 6 种主要语言，可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench，带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型（LLMs），以及那些在 MMedC 上进一步自回归训练的模型，结果我们的最终模型 MMedLM 2 只有 70 亿个参数，在 MMedBench 上表现出优异的性能，甚至与 GPT-4 不相上下。我们将公开提供这些资源，包括代码、模型权重和数据集。

Feb, 2024

开源语言模型在医学文本数据摘要中的比较分析

在医疗笔记和对话中，非结构化文本具有丰富的信息。最近大型语言模型（LLMs）的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能，超过了传统的文本分析方法。然而，在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究，特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs（如 Llama2 和 Mistral）在医疗摘要任务中的性能，使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制，支持为特定任务选择有效的 LLMs，并推进数字健康领域的知识发现。

May, 2024

医学 mT5：一个开源的医学领域的多语言文本到文本 LLM

目前，医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言（英语、法语、意大利语和西班牙语）的多语言语料库，训练出医学领域首个开源的多语言文本对文本模型 Medical mT5，并提出两个新的评估基准，以促进该领域的多语言研究。全面评估结果显示，Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型，与当前最先进的英语大型语言模型具有竞争力。

Apr, 2024

MedDoc-Bot：儿科高血压指南背景下的大型语言模型比较分析聊天工具

这项研究评估了非商业开源大型语言模型（LLMs）Meditron，MedAlpaca，Mistral 和 Llama-2 在解释保存为 PDF 格式的医学指南方面的效力。研究开发了一个用户友好的医学文档聊天机器人工具（MedDoc-Bot），能够上传 PDF 文件并提出问题，从四个本地存储的 LLM 中生成解释性回复。研究发现，Llama-2 和 Mistral 在度量评估中表现良好，但 Llama-2 在处理文本和表格数据时较慢。

May, 2024

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估 LLMs 在基准生物医学任务中的性能。为此，我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知，这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个 LLM 能够胜过其他 LLMs，不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

PMC-LLaMA：在医学论文中进一步微调 LLaMA

介绍了 PMC-LLaMA, 一种在 4.8 百万篇生物医学论文上 fine-tuning 得到的语言模型，用于注入医学知识，提高在医学领域的性能，经过初步试验后在生物医学数据集上表现出更好的理解生物医学特定概念，在 QA 基准上表现出高性能。

Apr, 2023

大规模语言模型微调的自适应机器翻译

利用零射击和单射击翻译提示在医学领域内进行了 Mistral 7B 大型通用语言模型 (LLM) 的微调，以提高其实时自适应机器翻译能力，结果显示其对西班牙语到英语机器翻译的质量改进超过了基准性能，并且其零射击翻译与 NLLB 3.3B 的性能相匹配，单射击翻译质量超过了 NLLB 3.3B 的性能，明确了微调高效 LLMs 像 Mistral 7B 的重要性，以产生与任务导向模型相当的高质量零射击翻译。

Dec, 2023

医疗领域中的大型语言模型：综述

大型语言模型在医疗保健领域的部署引发了热情和忧虑，本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能，从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹，特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。

Dec, 2023

Me LLaMA: 基于大型语言模型的医疗应用基础

这项研究介绍了 Me LLaMA，这是一个医学领域的大型语言模型（LLM）家族，包括基础模型 Me LLaMA 13/70B 和增强聊天版本 Me LLaMA 13/70B-chat。通过在大型医学数据上进行持续预训练和指导调整，Me LLaMA 模型在医学任务上表现优于其他医学 LLMs，适用于医学人工智能应用。

Feb, 2024