住院医学考试中正确答案的解释性论证提取

Dec, 2023

住院医学考试中正确答案的解释性论证提取

Explanatory Argument Extraction of Correct Answers in Resident Medical Exams

Iakes Goenaga, Aitziber Atutxa, Koldo Gojenola, Maite Oronoz, Rodrigo Agerri

TL;DR为了协助医学专家在日常活动中开发所需技术成为目前人工智能研究领域的热门话题。因此，最近提出了许多大型语言模型（LLMs）和自动基准，旨在利用自然语言作为人工智能与人类交互的工具，促进循证医学中的信息提取。本文提出了一个新的数据集，通过与以往研究不同的方式：（i）不仅包括正确答案的解释性论证，还包括解释错误答案不正确的论证；（ii）解释是由医生撰写的，以回答西班牙住院医师考试的问题。我们还利用这个新的基准来设置一项新的提取任务，即识别医生撰写的正确答案的解释。我们的设置的另一个好处是，我们可以利用提取问答范式来自动评估 LLMs 的性能，而不需要昂贵的人工评估。对西班牙语的语言模型进行了全面的实验，结果显示有时多语言模型的性能优于单语模型，甚至超过了已经针对医学领域进行调整的模型。此外，单语模型的结果不一致，表现竞争力的模型实际上更小、更低级。无论怎样，所获得的结果表明我们的新数据集和方法可以有效帮助医学专业人员识别与医学问题相关的循证解释。

Abstract

Developing the required technology to assist medical experts in their everyday activities is currently a hot topic in the artificial intelligence research field. Thus, a number of large language models (LLMs) and

artificial intelligence large language models information extraction evidence-based medicine medical doctors

发现论文，激发创造

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

在回答和解释棘手的医学问题上评估大型语言模型

通过构建两个新的数据集，利用多个评估指标以及医学专家编写的解释进行实验，我们发现 LLMs 在回答医学问题方面表现出色，但是现有的基准测试数据集在捕捉真实临床病例的复杂性以及提供参考解释方面存在不足，因此需要开发新的度量指标以支持可解释医疗问答的未来研究。

Feb, 2024

MedExQA：具备多重解释的医学问答基准

本研究介绍了 MedExQA，这是一个用于评估大型语言模型对医学知识的理解能力的新型基准，通过构建涵盖五个不同医学专业的数据集，并且为每个问题 - 答案对提供多个解释，填补了当前医学问答基准的一个重要空白，即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性，提出了一个评估模型超越分类准确性的有效方法，并在特定领域 —— 言语病理学中，揭示了当前 GPT4 等语言模型理解能力不足的问题。我们的结果表明，使用多个解释进行生成评估更符合人类评估结果，提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型（目前主要基于 Llama2），我们还提出了一种新的医学模型 MedPhi-2，基于 Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于 Llama2-70B 的医学语言模型，展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。

Jun, 2024

MediFact 在 MEDIQA-CORR 2024：为何人工智能需要人类的触摸

通过提取上下文相关的信息、构建监督学习框架和整合领域专业知识，本研究聚焦于提高医疗信息的准确性，并强调了人本主义策略在适应医疗人工智能中的重要性。

Apr, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种 LLMs（如 GPT 和 Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024

RJUA-MedDQA: 医学文件问题回答和临床推理的多模态基准测试

最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力，如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试，用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程，并提出了高效的结构恢复注释 (ESRA) 方法，可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本，在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验，发现现有的 LLMs 性能仍受限制，但与 LMMs 相比，LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。

Feb, 2024

MEDIQ：用于自适应可靠医学推理的问答 LLMs

在高风险领域如医疗推理中，目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍：现有的大语言模型被训练以回答任何问题，即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式，让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架，用于模拟逼真的临床交互过程，其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息；当专家系统对决策缺乏信心时，会通过追问问题来获取患者缺失的详细信息，而不会做出诊断决策。为了评估 MEDIQ，我们将 MEDQA 和 CRAFT-MD（用于诊断问题回答的医学基准测试）转化为交互式设置。我们开发了一个可靠的患者系统，并原型化了几个专家系统，首先表明直接命令最先进的大语言模型提问会降低临床推理的质量，表明将大语言模型适应于交互式信息寻求环境是困难的。然后，我们使用新的弃权模型来改进专家系统，更好地估计模型置信度，并决定是否追问更多问题，从而将诊断准确率提高了 20.3%；然而，性能仍然落后于完整信息均提供的理论上限（在实践中不切实际）。进一步分析表明，通过过滤不相关的上下文和重新格式化对话，可以提高交互性能。总体而言，我们的论文介绍了一个关于大语言模型可靠性的新问题，一个新的 MEDIQ 框架，并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。

Jun, 2024

医学领域跨语言论证挖掘

通过将英文数据翻译并投影到目标语言（西班牙语）的方法，我们有效地生成了无需手动干预的带注释数据，并证明了其优于使用大型屏蔽多语言语言模型的零 - shot 跨语言方法。同时，我们还展示了西班牙语中自动生成的数据如何用于改善英语评估设置中的结果。

Jan, 2023

大型语言模型的临床文档动态问答

利用大型语言模型 (LLMs) 对临床记录进行动态问答的自然语言接口引入了一种新的方法。我们的聊天机器人通过 Langchain 和基于变压器的 LLMs 实现，允许用户用自然语言查询并从临床记录中获得相关答案。经过利用各种嵌入模型和先进的 LLMs 的实验表明，Wizard Vicuna 具有更高的准确性，尽管计算需求较高。模型优化，包括重量量化，使延迟时间提高了约 48 倍。有希望的结果表明，充分利用临床记录的价值和推进基于 AI 的临床决策的发展还面临一些挑战，如模型幻觉和有限的多样化医疗案例评估。解决这些差距对于释放临床记录的价值和推进基于 AI 的临床决策具有重要意义。

Jan, 2024

利用大型语言模型模拟人类认知过程进行专业级医学问题回答

通过模拟人类认知过程，BooksMed 使用大型语言模型（LLM）构建的框架，利用 GRADE 框架来提供基于证据的可靠答复，同时引入 ExpertMedQA 来评估 LLM 的性能，从而成为在临床决策中提供可靠和基于证据的答案的有用工具。

Oct, 2023