WangLab 在 MEDIQA-CORR 2024 中的优化基于 LLM 的医疗错误检测和校正程序

Apr, 2024

WangLab 在 MEDIQA-CORR 2024 中的优化基于 LLM 的医疗错误检测和校正程序

WangLab at MEDIQA-CORR 2024: Optimized LLM-based Programs for Medical Error Detection and Correction

Augustin Toma, Ronald Xie, Steven Palayew, Patrick R. Lawler, Bo Wang

TL;DR医疗文件中的医疗错误对患者安全构成重大风险。本文介绍了我们在三个子任务中均取得顶尖表现的方法，即错误检测、错误句子提取和生成纠正句子。我们利用外部医学问答数据集开发了一套基于检索的系统用于处理微妙错误的 MS 数据集，同时对于反映更真实的临床记录的 UW 数据集，我们创建了一个模块化流程来检测、定位和纠正错误。这两种方法都利用 DSPy 框架来优化大型语言模型程序中的提示和少样本示例。我们的结果表明，基于大型语言模型的程序对于医疗纠错非常有效，但是我们的方法在解决医疗文档中潜在错误的全面多样性方面存在局限性。我们讨论了我们工作的影响，并强调了未来研究方向，以提高医疗错误检测和纠正系统的鲁棒性和适用性。

Abstract

medical errors in clinical text pose significant risks to patient safety. The mediqa-corr 2024 shared task focuses on detecting and correc

medical errors clinical text mediqa-corr 2024 error detection error correction

发现论文，激发创造

MEDIQA-CORR 2024 中 PromptMind 团队：通过错误分类和 LLM 集合改进临床文本纠正

该论文介绍了我们在 MEDIQA-CORR 共享任务中的方法，该任务涉及医学专业人员策划的临床笔记中的错误检测和更正。我们的工作旨在评估在包含事实和不可靠信息的海量互联网数据上训练的大型语言模型（LLM）的能力。我们建议综合处理所有子任务，并建议采用独特的基于提示的上下文学习策略。我们将评估其在结合一般推理和医学知识的专门任务中的功效。在预测错误可能导致严重后果的医学系统中，我们建议利用自洽性和集成方法来提高错误更正和错误检测性能。

May, 2024

MEDIQA-CORR 2024 上的爱丁堡临床自然语言处理：利用提示指导大型语言模型

评估大型语言模型在医疗错误识别和修正方面的能力，提出了多种提示策略来显著提高模型的修正能力，并讨论了错误句子位置、提示角色和选项位置对模型准确性的影响。该研究表明，尽管具有潜力，但是否准备好将大型语言模型应用于真实临床环境仍然需要进一步研究。

May, 2024

MediFact 在 MEDIQA-CORR 2024：为何人工智能需要人类的触摸

通过提取上下文相关的信息、构建监督学习框架和整合领域专业知识，本研究聚焦于提高医疗信息的准确性，并强调了人本主义策略在适应医疗人工智能中的重要性。

Apr, 2024

IryoNLP 在 MEDIQA-CORR 2024 中应用：基于医疗代理的医疗错误检测与纠正任务

应用于临床领域的自然语言处理中，使用大型语言模型成为一种有前景的方法，用于在医疗笔记中进行错误检测和纠正，而这是一项缺乏注释数据的知识密集型任务。本文介绍了 MedReAct'N'MedReFlex，该系统利用四个基于 LLM 的医学代理。其中，MedReAct 代理通过观察、分析和采取行动，生成轨迹以指导搜索，从而定位潜在的错误。随后，MedEval 代理使用五个评估器评估目标错误和提出的修正方案。在 MedReAct 的行动不足以解决问题的情况下，MedReFlex 代理介入，进行反思分析并提出替代策略。最后，MedFinalParser 代理格式化最终输出，保留原始风格同时确保错误修正过程的完整性。我们方法的一个核心组成部分是基于 ClinicalCorp 语料库的 RAG 流水线。除了其他包含临床指南和信息的知名资源之外，我们对开源 MedWiki 临床数据集进行预处理和发布，用于临床 RAG 应用。我们的结果证明了我们的 RAG 方法及其通过 MedReAct'N'MedReFlex 框架的 ClinicalCorp 的核心作用，它在 MEDIQA-CORR 2024 最终排行榜上排名第九。

Apr, 2024

利用大型语言模型进行临床报告错误校正的知识检索

临床放射学报告中的错误更正方法研究，利用大型语言模型（LLMs）和检索增强生成（RAG）技术，通过内部和外部检索机制从报告和外部知识源中提取相关医学实体和关系，并引入三阶段推理过程，将任务分解成错误检测、定位和更正子任务，从而提高了系统的可解释性和性能，并通过由领域专家指导的对真实世界放射学报告进行真实错误损坏的基准数据集进行了评估，实验结果表明了所提方法的优势，通过内部和外部检索的结合显著提高了各种最先进的 LLMs 在错误检测、定位和更正方面的准确性，研究结果有助于为临床文档制定更健壮可靠的错误更正系统。

Jun, 2024

LLMs 在医学领域中能有效纠正医生吗？研究有效的交互方法

利用大型语言模型（LLMs）协助和纠正医生在医疗决策任务中的潜力进行探索，研究评估了几个 LLMs，包括 Meditron、Llama2 和 Mistral，以分析这些模型在不同场景下与医生有效互动的能力，并认为提示设计显著影响 LLMs 的下游准确性，LLMs 能够为医生提供有价值的反馈，挑战错误诊断，促进更准确的决策，同时还揭示了确保 LLM 生成的建议相关和有用的挑战，强调了进一步研究的需求。

Mar, 2024

WangLab 在 MEDIQA-M3G 2024 中使用大型语言模型进行多模态医学答案生成

这篇论文讨论了我们在 MEDIQA2024 多语言和多模式医学回答生成（M3G）共享任务中的提交情况，报告了在任务的英语类别下两个独立解决方案的结果，第一个解决方案涉及对 Claude 3 Opus API 进行两次连续的 API 调用，第二个解决方案涉及使用 CLIP 进行图像分类的图像疾病标签联合嵌入训练。这两个解决方案在比赛排行榜上分别获得第一和第二名，大大超过了其他解决方案。此外，我们讨论了来自后期竞赛实验的见解。尽管由于共享任务的难度和医学视觉问答的挑战性质，这两个解决方案的性能有很大的提升空间，但我们认为多阶段 LLM 方法和 CLIP 图像分类方法有进一步研究的潜力。

Apr, 2024

MEDIQ：用于自适应可靠医学推理的问答 LLMs

在高风险领域如医疗推理中，目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍：现有的大语言模型被训练以回答任何问题，即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式，让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架，用于模拟逼真的临床交互过程，其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息；当专家系统对决策缺乏信心时，会通过追问问题来获取患者缺失的详细信息，而不会做出诊断决策。为了评估 MEDIQ，我们将 MEDQA 和 CRAFT-MD（用于诊断问题回答的医学基准测试）转化为交互式设置。我们开发了一个可靠的患者系统，并原型化了几个专家系统，首先表明直接命令最先进的大语言模型提问会降低临床推理的质量，表明将大语言模型适应于交互式信息寻求环境是困难的。然后，我们使用新的弃权模型来改进专家系统，更好地估计模型置信度，并决定是否追问更多问题，从而将诊断准确率提高了 20.3%；然而，性能仍然落后于完整信息均提供的理论上限（在实践中不切实际）。进一步分析表明，通过过滤不相关的上下文和重新格式化对话，可以提高交互性能。总体而言，我们的论文介绍了一个关于大语言模型可靠性的新问题，一个新的 MEDIQ 框架，并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。

Jun, 2024

UMASS_BioNLP 参加 MEDIQA-Chat 2023: LLM 模型是否可以生成高质量的面向医生患者对话的合成笔记？

本文介绍了 UMASS_BioNLP 团队参加 MEDIQA-Chat 2023 任务 A 和任务 C 的情况，并提出了一种名为医生 - 患者循环的新型 LLMs 合作系统，以生成高质量的对话数据集。通过 ROUGE、医学概念召回率、BLEU 和自身 BLEU 等自动度量标准对方法进行了评估，并对其与 ChatGPT 和 GPT-4 进行了比较分析，同时探讨了利用合作 LLMs 生成高质量数据集的潜力。

Jun, 2023

MedEdit：应用外部知识库进行医学问答的模型编辑

使用模型编辑和上下文学习的综合检索策略，可以提高大型语言模型在医学问答方面的准确性，消除黑盒模型的挑战。

Sep, 2023