SM70：一种用于医疗设备的大型语言模型

Dec, 2023

SM70：一种用于医疗设备的大型语言模型

SM70: A Large Language Model for Medical Devices

Anubhav Bhatti, Surajsinh Parmar, San Lee

TL;DR我们引入了 SM70，这是一个具有 70 亿参数的大型语言模型，专门为 SpassMed 的品牌 JEE1 的医疗设备而设计，提供对医学领域问题更准确、更安全的响应。通过使用公开可得的 MedAlpaca 数据集中的约 800K 个数据条目对 SM70 进行调优，以 LLama2 70B 开源模型为基础，采用 QLoRA 技术进行微调。我们通过对 MEDQA - USMLE、PUBMEDQA 和 USMLE 这三个基准数据集的评估，与包括 LLama2 70B、Clinical Camel 70（CC70）、GPT 3.5、GPT 4 和 Med-Palm 在内的其他知名 LLM 进行对比，展示了 SM70 在处理一系列医学查询方面的能力，从基于 PubMed 摘要的事实性问题到复杂的临床决策情景。SM70 在 USMLE 和 PUBMEDQA 数据集中表现出色，显示出它作为临床决策支持和医学信息检索工具的潜力。尽管具有有希望的结果，但该论文也承认了 SM70 在与最先进的模型 GPT 4 相比的领域中的滞后，从而突出了进一步发展的需求，特别是在需要广泛的医学知识和复杂推理的任务中。

Abstract

We are introducing sm70, a 70 billion-parameter large language model that is specifically designed for SpassMed's medical devices under th

large language model sm70 medical devices fine-tuning benchmark datasets

发现论文，激发创造

MEDITRON-70B：用于大型语言模型的医学预训练扩展

通过发布具有 7B 和 70B 参数的开源 LLMs 套件 MEDITRON，我们改进了对大规模医学 LLMs 的访问，并在多个医学测试中显示出显著的性能提升。与闭源 LLMs 相比，MEDITRON-70B 在 GPT-3.5 和 Med-PaLM 上表现优异，并且与 GPT-4 和 Med-PaLM-2 相差不到 5% 和 10%。

Nov, 2023

BioMedLM：训练于生物医学文本的 27 亿参数语言模型

BioMedLM, a 2.7 billion parameter GPT-style autoregressive model trained on PubMed, demonstrates competitive performance in biomedical NLP tasks, highlighting the potential of smaller, targeted models as efficient and environmentally friendly alternatives.

Mar, 2024

评估中型语言模型在临床问答中的潜力

比较了大型语言模型和中型开源模型在临床任务上的表现，发现 Mistral 7B 是表现最佳的模型，并且在临床问题回答任务和消费者查询回答任务上优于专门为生物医学领域训练的模型。

Apr, 2024

运用大型语言模型实现专业级医疗问答

Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.

May, 2023

大型语言模型准备好应用于医疗保健了吗？临床语言理解的比较研究

本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示（SQP），来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能，同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。

Apr, 2023

PMC-LLaMA：在医学论文中进一步微调 LLaMA

介绍了 PMC-LLaMA, 一种在 4.8 百万篇生物医学论文上 fine-tuning 得到的语言模型，用于注入医学知识，提高在医学领域的性能，经过初步试验后在生物医学数据集上表现出更好的理解生物医学特定概念，在 QA 基准上表现出高性能。

Apr, 2023

日本医学问答中的 70B 参数大型语言模型

通过使用多个 70B 参数的大型语言模型以及日本医学问答数据集进行指导调整，我们首次展示了指导调整显著提高了日本医学领域的语言模型在解决日本医学许可考试方面的准确性，超过了 50%。特别是，与英文为中心的模型相比，以日语为中心的模型在通过指导调整方面取得了更大的改进，这凸显了我们地方语言的持续预训练和标记工具的调整的重要性。我们还检验了两种略有不同的提示格式，结果显示有可观的性能改进。

Jun, 2024

评估大型语言模型用于公共卫生分类和提取任务

基于对 LLMs 在公共卫生任务中的自动评估，将六个外部注释数据集与七个新的内部注释数据集相结合，评估 LLMs 在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能，发现 Llama-3-70B-Instruct 是性能最好的模型，在 15 个任务中取得最佳结果。这些初步结果表明，LLMs 可能成为公共卫生专家从各种免费文本来源中提取信息，并支持公共卫生监测、研究和干预的有用工具。

May, 2024

Me LLaMA: 基于大型语言模型的医疗应用基础

这项研究介绍了 Me LLaMA，这是一个医学领域的大型语言模型（LLM）家族，包括基础模型 Me LLaMA 13/70B 和增强聊天版本 Me LLaMA 13/70B-chat。通过在大型医学数据上进行持续预训练和指导调整，Me LLaMA 模型在医学任务上表现优于其他医学 LLMs，适用于医学人工智能应用。

Feb, 2024

小语言模型通过医学教科书学习提升的推理能力

Meerkat-7B 是一个具有 70 亿参数的新型医疗人工智能系统，通过使用来自 18 本医学教科书的高品质推理路径和多样的指令跟随数据集进行训练，成功地在七个医学基准测试中取得了出色的准确性，在超过 GPT-3.5 13.1％的同时，还超过了先前的 7B 模型（如 MediTron-7B 和 BioMistral-7B）分别达到了 13.4％和 9.8％的性能，并且首次超过了 United States Medical Licensing Examination（USMLE）的 7B 参数模型通过阈值。此外，相比现有的 7B 和 13B 模型，我们的系统对临床问题提供了更详细的自由形式回答，接近于 GPT-3.5 的性能水平，这大大缩小了与大型语言模型之间的性能差距，展示了它在应对复杂的医学挑战方面的有效性。

Mar, 2024