MEDIQ：用于自适应可靠医学推理的问答 LLMs

Jun, 2024

MEDIQ：用于自适应可靠医学推理的问答 LLMs

MEDIQ: Question-Asking LLMs for Adaptive and Reliable Medical Reasoning

Shuyue Stella Li, Vidhisha Balachandran, Shangbin Feng, Jonathan Ilgen, Emma Pierson...

TL;DR在高风险领域如医疗推理中，目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍：现有的大语言模型被训练以回答任何问题，即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式，让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架，用于模拟逼真的临床交互过程，其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息；当专家系统对决策缺乏信心时，会通过追问问题来获取患者缺失的详细信息，而不会做出诊断决策。为了评估 MEDIQ，我们将 MEDQA 和 CRAFT-MD（用于诊断问题回答的医学基准测试）转化为交互式设置。我们开发了一个可靠的患者系统，并原型化了几个专家系统，首先表明直接命令最先进的大语言模型提问会降低临床推理的质量，表明将大语言模型适应于交互式信息寻求环境是困难的。然后，我们使用新的弃权模型来改进专家系统，更好地估计模型置信度，并决定是否追问更多问题，从而将诊断准确率提高了 20.3%；然而，性能仍然落后于完整信息均提供的理论上限（在实践中不切实际）。进一步分析表明，通过过滤不相关的上下文和重新格式化对话，可以提高交互性能。总体而言，我们的论文介绍了一个关于大语言模型可靠性的新问题，一个新的 MEDIQ 框架，并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。

Abstract

In high-stakes domains like medical reasoning, AI assistants powered by large language models (LLMs) are yet to be reliable and safe. We identify a key obstacle towards reliability: existing LLMs are trained to a

large language models medical reasoning reliable interactive information-seeking llm assistants

发现论文，激发创造

MediFact 在 MEDIQA-CORR 2024：为何人工智能需要人类的触摸

通过提取上下文相关的信息、构建监督学习框架和整合领域专业知识，本研究聚焦于提高医疗信息的准确性，并强调了人本主义策略在适应医疗人工智能中的重要性。

Apr, 2024

基于有限样本的思维链驱动推理用于开放式医学问题回答的 LLMs

使用大型语言模型（LLMs）自动化医疗任务，如临床记录、信息检索和决策支持。我们提出一种修改的 MedQA-USMLE 数据集，用于模拟真实的临床场景，并探索基于思维链（CoT）推理的主观响应生成，以获取正确的医疗问题答案。我们还利用回报训练机制和人类参与，开发了更好的对比学习策略，并通过增量推理的提示得出贪婪解码方法比其他策略更好的结论。

Mar, 2024

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

利用大型语言模型模拟人类认知过程进行专业级医学问题回答

通过模拟人类认知过程，BooksMed 使用大型语言模型（LLM）构建的框架，利用 GRADE 框架来提供基于证据的可靠答复，同时引入 ExpertMedQA 来评估 LLM 的性能，从而成为在临床决策中提供可靠和基于证据的答案的有用工具。

Oct, 2023

运用大型语言模型实现专业级医疗问答

Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.

May, 2023

JMLR: 提升推理能力和专业问答能力的联合医疗语言模型和检索训练

通过在细调阶段共同训练信息检索系统和大规模语言模型，引入了一种创新方法 —— 共同医学 LLM 和检索训练（JMLR），以克服传统模型在处理医学问答任务方面面临的挑战，通过采用同步训练机制，JMLR 降低了对计算资源的需求，增强了模型利用医学知识进行推理和回答问题的能力。我们的实验结果表明，JMLR-13B 在 Amboos 上的正确率为 81.2％，在 MedQA 上的正确率为 61.3％，优于使用传统预训练和精调 Meditron-70B 模型（在 AMBOSS 上为 76.4％，在 MedQA 上为 60.3％）。在规模相同的 7B 模型中，JMLR-7B 的正确率（在 Amboos 上为 68.7％，在 MedQA 上为 51.7％）明显优于其他公开模型（Meditron-7B：50.1％，47.9％），证明了它在成本（我们的训练时间：37 小时，传统方法：144 小时）、效率和医学问题回答任务的有效性方面的优越性。通过此工作，我们为医疗保健提供了一种新的高效知识增强工具，展示了将信息检索和大规模语言模型训练集成到精确医学信息检索和问答系统中的巨大潜力。

Feb, 2024

主动协作框架：零样本多模态医学推理的查询、交互和集成

我们提出了一个多模态医疗协作推理框架 MultiMedRes，通过学习者代理从领域特定专家模型获取必要信息来解决医疗多模态推理问题，并在 X 射线图像的区别视觉问答任务中验证了方法的有效性。

May, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种 LLMs（如 GPT 和 Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024

从初学者到专家：将医学知识建模到通用 LLM 中

本研究通过将预训练的通用大型语言模型精细调整为医学领域专家，并结合多种优化方法，包括注入通用医学知识、医学领域指导微调和特定医学任务适应性调整，成功提升了在医学领域的推理和应答能力。

Dec, 2023

MedEdit：应用外部知识库进行医学问答的模型编辑

使用模型编辑和上下文学习的综合检索策略，可以提高大型语言模型在医学问答方面的准确性，消除黑盒模型的挑战。

Sep, 2023