小语言模型通过医学教科书学习提升的推理能力

Mar, 2024

小语言模型通过医学教科书学习提升的推理能力

Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

Hyunjae Kim, Hyeon Hwang, Jiwoo Lee, Sihyeon Park, Dain Kim...

TL;DRMeerkat-7B 是一个具有 70 亿参数的新型医疗人工智能系统，通过使用来自 18 本医学教科书的高品质推理路径和多样的指令跟随数据集进行训练，成功地在七个医学基准测试中取得了出色的准确性，在超过 GPT-3.5 13.1％的同时，还超过了先前的 7B 模型（如 MediTron-7B 和 BioMistral-7B）分别达到了 13.4％和 9.8％的性能，并且首次超过了 United States Medical Licensing Examination（USMLE）的 7B 参数模型通过阈值。此外，相比现有的 7B 和 13B 模型，我们的系统对临床问题提供了更详细的自由形式回答，接近于 GPT-3.5 的性能水平，这大大缩小了与大型语言模型之间的性能差距，展示了它在应对复杂的医学挑战方面的有效性。

Abstract

While recent advancements in commercial large language models (LM) have shown promising results in medical tasks, their closed-source nature poses significant privacy and security concerns, hindering their widespread use in the medical field. Despite efforts to create open-source model

commercial large language models medical ai system meerkat-7b synthetic dataset complex medical challenges

发现论文，激发创造

BioMedLM：训练于生物医学文本的 27 亿参数语言模型

BioMedLM, a 2.7 billion parameter GPT-style autoregressive model trained on PubMed, demonstrates competitive performance in biomedical NLP tasks, highlighting the potential of smaller, targeted models as efficient and environmentally friendly alternatives.

Mar, 2024

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

MEDITRON-70B：用于大型语言模型的医学预训练扩展

通过发布具有 7B 和 70B 参数的开源 LLMs 套件 MEDITRON，我们改进了对大规模医学 LLMs 的访问，并在多个医学测试中显示出显著的性能提升。与闭源 LLMs 相比，MEDITRON-70B 在 GPT-3.5 和 Med-PaLM 上表现优异，并且与 GPT-4 和 Med-PaLM-2 相差不到 5% 和 10%。

Nov, 2023

从初学者到专家：将医学知识建模到通用 LLM 中

本研究通过将预训练的通用大型语言模型精细调整为医学领域专家，并结合多种优化方法，包括注入通用医学知识、医学领域指导微调和特定医学任务适应性调整，成功提升了在医学领域的推理和应答能力。

Dec, 2023

医学术语分类中的大型语言模型及响应与推理的意外不一致

本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Dec, 2023

大型语言模型是否能够对医学问题进行推理？

研究了 GPT-3.5 在实际世界中具有强大推理能力和专业领域知识的应用能力，使用了多项提示方法（CoT、零和少量训练以及检索增强），并在医学考试和阅读理解领域取得了人类水平表现。

Jul, 2022

开源大型语言模型 GPT-4 和 Claude 2 的比较研究：肾脏病学中的多项选择测试

该研究调查了大型语言模型（LLMs）在内科专科多项选择测试能力方面的医学知识能力，与 GPT-4 和 Claude 2 相比，当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。

Aug, 2023

Me LLaMA: 基于大型语言模型的医疗应用基础

这项研究介绍了 Me LLaMA，这是一个医学领域的大型语言模型（LLM）家族，包括基础模型 Me LLaMA 13/70B 和增强聊天版本 Me LLaMA 13/70B-chat。通过在大型医学数据上进行持续预训练和指导调整，Me LLaMA 模型在医学任务上表现优于其他医学 LLMs，适用于医学人工智能应用。

Feb, 2024

利用大型语言模型模拟人类认知过程进行专业级医学问题回答

通过模拟人类认知过程，BooksMed 使用大型语言模型（LLM）构建的框架，利用 GRADE 框架来提供基于证据的可靠答复，同时引入 ExpertMedQA 来评估 LLM 的性能，从而成为在临床决策中提供可靠和基于证据的答案的有用工具。

Oct, 2023

医学研究与健康保健的生成式大型语言模型研究

本文使用 2770 亿行混合临床和英文文本的 GPT-3 架构，开发了一种名为 GatorTronGPT 的临床生成 LLM，以提高医学研究的生物医学自然语言处理。通过使用 GatorTronGPT 训练的合成自然语言处理模型的生成文本，性能优于使用现实临床文本训练的模型。在医生的图灵测试中，医生不能区分 GatorTronGPT 所生成的文本和人类所生成的文本。该研究为 LLMs 在医学研究和医疗保健中的机遇和挑战提供了深入的见解。

May, 2023