RJUA-MedDQA: 医学文件问题回答和临床推理的多模态基准测试

Feb, 2024

RJUA-MedDQA: 医学文件问题回答和临床推理的多模态基准测试

RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning

Congyun Jin, Ming Zhang, Xiaowei Ma, Li Yujiao, Yingbo Wang...

TL;DR最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力，如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试，用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程，并提出了高效的结构恢复注释 (ESRA) 方法，可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本，在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验，发现现有的 LLMs 性能仍受限制，但与 LMMs 相比，LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。

Abstract

Recent advancements in large language models (LLMs) and Large Multi-modal Models (LMMs) have shown potential in various medical applications, such as intelligent medical diagnosis. Although impressive results hav

large language models large multi-modal models intelligent medical diagnosis rjua-meddqa efficient structural restoration annotation

发现论文，激发创造

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

JMLR: 提升推理能力和专业问答能力的联合医疗语言模型和检索训练

通过在细调阶段共同训练信息检索系统和大规模语言模型，引入了一种创新方法 —— 共同医学 LLM 和检索训练（JMLR），以克服传统模型在处理医学问答任务方面面临的挑战，通过采用同步训练机制，JMLR 降低了对计算资源的需求，增强了模型利用医学知识进行推理和回答问题的能力。我们的实验结果表明，JMLR-13B 在 Amboos 上的正确率为 81.2％，在 MedQA 上的正确率为 61.3％，优于使用传统预训练和精调 Meditron-70B 模型（在 AMBOSS 上为 76.4％，在 MedQA 上为 60.3％）。在规模相同的 7B 模型中，JMLR-7B 的正确率（在 Amboos 上为 68.7％，在 MedQA 上为 51.7％）明显优于其他公开模型（Meditron-7B：50.1％，47.9％），证明了它在成本（我们的训练时间：37 小时，传统方法：144 小时）、效率和医学问题回答任务的有效性方面的优越性。通过此工作，我们为医疗保健提供了一种新的高效知识增强工具，展示了将信息检索和大规模语言模型训练集成到精确医学信息检索和问答系统中的巨大潜力。

Feb, 2024

MedThink：通过多模态决策理由解释医学视觉问题回答

通过设计半自动注释过程，构建了基于多模态大型语言模型生成中间医疗决策理由的新的基准 MedVQA 数据集 R-RAD 和 R-SLAKE，并将其纳入训练过程中，通过三种不同的策略生成决策结果和相应的理由，从而清楚地展示推理过程中的医疗决策过程，实验证明该方法在 R-RAD 上能达到 83.5% 的准确率，在 R-SLAKE 上能达到 86.3% 的准确率，显著优于现有最先进的基线模型。

Apr, 2024

RJUA-QA：一份完整的泌尿科问答数据集

我们介绍了 RJUA-QA，这是一个新颖的医学数据集，用于问题回答和与临床证据推理，有助于弥合通用大型语言模型（LLMs）与医学特定 LLM 应用之间的差距。

Dec, 2023

在回答和解释棘手的医学问题上评估大型语言模型

通过构建两个新的数据集，利用多个评估指标以及医学专家编写的解释进行实验，我们发现 LLMs 在回答医学问题方面表现出色，但是现有的基准测试数据集在捕捉真实临床病例的复杂性以及提供参考解释方面存在不足，因此需要开发新的度量指标以支持可解释医疗问答的未来研究。

Feb, 2024

MedExQA：具备多重解释的医学问答基准

本研究介绍了 MedExQA，这是一个用于评估大型语言模型对医学知识的理解能力的新型基准，通过构建涵盖五个不同医学专业的数据集，并且为每个问题 - 答案对提供多个解释，填补了当前医学问答基准的一个重要空白，即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性，提出了一个评估模型超越分类准确性的有效方法，并在特定领域 —— 言语病理学中，揭示了当前 GPT4 等语言模型理解能力不足的问题。我们的结果表明，使用多个解释进行生成评估更符合人类评估结果，提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型（目前主要基于 Llama2），我们还提出了一种新的医学模型 MedPhi-2，基于 Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于 Llama2-70B 的医学语言模型，展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。

Jun, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

我们介绍了 OmniMedVQA，一个来自 75 个不同医疗数据集的医疗视觉问答基准，其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

MEDIQ：用于自适应可靠医学推理的问答 LLMs

在高风险领域如医疗推理中，目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍：现有的大语言模型被训练以回答任何问题，即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式，让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架，用于模拟逼真的临床交互过程，其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息；当专家系统对决策缺乏信心时，会通过追问问题来获取患者缺失的详细信息，而不会做出诊断决策。为了评估 MEDIQ，我们将 MEDQA 和 CRAFT-MD（用于诊断问题回答的医学基准测试）转化为交互式设置。我们开发了一个可靠的患者系统，并原型化了几个专家系统，首先表明直接命令最先进的大语言模型提问会降低临床推理的质量，表明将大语言模型适应于交互式信息寻求环境是困难的。然后，我们使用新的弃权模型来改进专家系统，更好地估计模型置信度，并决定是否追问更多问题，从而将诊断准确率提高了 20.3%；然而，性能仍然落后于完整信息均提供的理论上限（在实践中不切实际）。进一步分析表明，通过过滤不相关的上下文和重新格式化对话，可以提高交互性能。总体而言，我们的论文介绍了一个关于大语言模型可靠性的新问题，一个新的 MEDIQ 框架，并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。

Jun, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种 LLMs（如 GPT 和 Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024