MEDITRON-70B：用于大型语言模型的医学预训练扩展

Nov, 2023

MEDITRON-70B：用于大型语言模型的医学预训练扩展

MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

Zeming Chen, Alejandro Hernández Cano, Angelika Romanou, Antoine Bonnet, Kyle Matoba...

TL;DR通过发布具有 7B 和 70B 参数的开源 LLMs 套件 MEDITRON，我们改进了对大规模医学 LLMs 的访问，并在多个医学测试中显示出显著的性能提升。与闭源 LLMs 相比，MEDITRON-70B 在 GPT-3.5 和 Med-PaLM 上表现优异，并且与 GPT-4 和 Med-PaLM-2 相差不到 5% 和 10%。

Abstract

large language models (LLMs) can potentially democratize access to medical knowledge. While many efforts have been made to harness and improve LLMs' medical knowledge and reasoning capacities, the resulting model

large language models meditron medical knowledge open-source pretraining

发现论文，激发创造

BioMedLM：训练于生物医学文本的 27 亿参数语言模型

BioMedLM, a 2.7 billion parameter GPT-style autoregressive model trained on PubMed, demonstrates competitive performance in biomedical NLP tasks, highlighting the potential of smaller, targeted models as efficient and environmentally friendly alternatives.

Mar, 2024

医学研究与健康保健的生成式大型语言模型研究

本文使用 2770 亿行混合临床和英文文本的 GPT-3 架构，开发了一种名为 GatorTronGPT 的临床生成 LLM，以提高医学研究的生物医学自然语言处理。通过使用 GatorTronGPT 训练的合成自然语言处理模型的生成文本，性能优于使用现实临床文本训练的模型。在医生的图灵测试中，医生不能区分 GatorTronGPT 所生成的文本和人类所生成的文本。该研究为 LLMs 在医学研究和医疗保健中的机遇和挑战提供了深入的见解。

May, 2023

小语言模型通过医学教科书学习提升的推理能力

Meerkat-7B 是一个具有 70 亿参数的新型医疗人工智能系统，通过使用来自 18 本医学教科书的高品质推理路径和多样的指令跟随数据集进行训练，成功地在七个医学基准测试中取得了出色的准确性，在超过 GPT-3.5 13.1％的同时，还超过了先前的 7B 模型（如 MediTron-7B 和 BioMistral-7B）分别达到了 13.4％和 9.8％的性能，并且首次超过了 United States Medical Licensing Examination（USMLE）的 7B 参数模型通过阈值。此外，相比现有的 7B 和 13B 模型，我们的系统对临床问题提供了更详细的自由形式回答，接近于 GPT-3.5 的性能水平，这大大缩小了与大型语言模型之间的性能差距，展示了它在应对复杂的医学挑战方面的有效性。

Mar, 2024

构建医学多语言语言模型的研究

我们旨在开发一个开源、多语言的医学语言模型，以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC，其中包含约 255 亿个标记，涵盖 6 种主要语言，可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench，带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型（LLMs），以及那些在 MMedC 上进一步自回归训练的模型，结果我们的最终模型 MMedLM 2 只有 70 亿个参数，在 MMedBench 上表现出优异的性能，甚至与 GPT-4 不相上下。我们将公开提供这些资源，包括代码、模型权重和数据集。

Feb, 2024

SM70：一种用于医疗设备的大型语言模型

我们引入了 SM70，这是一个具有 70 亿参数的大型语言模型，专门为 SpassMed 的品牌 JEE1 的医疗设备而设计，提供对医学领域问题更准确、更安全的响应。通过使用公开可得的 MedAlpaca 数据集中的约 800K 个数据条目对 SM70 进行调优，以 LLama2 70B 开源模型为基础，采用 QLoRA 技术进行微调。我们通过对 MEDQA - USMLE、PUBMEDQA 和 USMLE 这三个基准数据集的评估，与包括 LLama2 70B、Clinical Camel 70（CC70）、GPT 3.5、GPT 4 和 Med-Palm 在内的其他知名 LLM 进行对比，展示了 SM70 在处理一系列医学查询方面的能力，从基于 PubMed 摘要的事实性问题到复杂的临床决策情景。SM70 在 USMLE 和 PUBMEDQA 数据集中表现出色，显示出它作为临床决策支持和医学信息检索工具的潜力。尽管具有有希望的结果，但该论文也承认了 SM70 在与最先进的模型 GPT 4 相比的领域中的滞后，从而突出了进一步发展的需求，特别是在需要广泛的医学知识和复杂推理的任务中。

Dec, 2023

自动医疗记录生成的持续预训练语言模型方法

LLMs 是 NLP 任务的革命性技术，但是像 GPT-4 这样功能强大的 LLM 对于大多数特定领域的场景来说价格过高。我们提出了第一个基于 13B Llama2 的连续训练的 LLM，该模型专门用于医学对话，并通过自动撰写进行了衡量。结果表明，我们的模型在 PubMedQA 中的准确度达到了 76.6％，并且在将医学对话总结为 SOAP 笔记方面与 GPT-4 的性能相当。值得注意的是，我们的模型能够捕捉更多正确的医学概念，超越 GPT-4，并以更高的正确性和完整性胜过人工撰稿人。

Mar, 2024

GatorTron：从非结构化电子病历中解锁患者信息的大型临床语言模型

本研究构建并评估了 GatorTron，一个基于临床语言的自然语言处理大型模型，训练数据包含 90 多亿个单词，其中包括 82 多亿个去识别化的临床文本。该模型在临床概念提取、医学关系提取、语义文本相似度、自然语言推断和医学问答等 5 个临床自然语言处理任务上都表现出众，并在可伸缩性方面得到了优化。

Feb, 2022

医学 mT5：一个开源的医学领域的多语言文本到文本 LLM

目前，医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言（英语、法语、意大利语和西班牙语）的多语言语料库，训练出医学领域首个开源的多语言文本对文本模型 Medical mT5，并提出两个新的评估基准，以促进该领域的多语言研究。全面评估结果显示，Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型，与当前最先进的英语大型语言模型具有竞争力。

Apr, 2024

评估中型语言模型在临床问答中的潜力

比较了大型语言模型和中型开源模型在临床任务上的表现，发现 Mistral 7B 是表现最佳的模型，并且在临床问题回答任务和消费者查询回答任务上优于专门为生物医学领域训练的模型。

Apr, 2024

MedDoc-Bot：儿科高血压指南背景下的大型语言模型比较分析聊天工具

这项研究评估了非商业开源大型语言模型（LLMs）Meditron，MedAlpaca，Mistral 和 Llama-2 在解释保存为 PDF 格式的医学指南方面的效力。研究开发了一个用户友好的医学文档聊天机器人工具（MedDoc-Bot），能够上传 PDF 文件并提出问题，从四个本地存储的 LLM 中生成解释性回复。研究发现，Llama-2 和 Mistral 在度量评估中表现良好，但 Llama-2 在处理文本和表格数据时较慢。

May, 2024