EHRNoteQA：临床环境下评估大型语言模型的患者特定问题回答基准

Feb, 2024

EHRNoteQA：临床环境下评估大型语言模型的患者特定问题回答基准

EHRNoteQA: A Patient-Specific Question Answering Benchmark for Evaluating Large Language Models in Clinical Settings

Sunjun Kweon, Jiyoun Kim, Heeyoung Kwak, Dongchul Cha, Hangyul Yoon...

TL;DR这项研究介绍了 EHRNoteQA，这是一个为评估临床环境中大型语言模型（LLMs）而定制的创新患者特定问题回答基准。它是首个采用多项选择问题回答格式的数据集，通过分析多个临床记录来回答单个问题，与其他格式相比，在自动评估中有效地评估 LLMs 的可靠性得分。在各种大型语言模型上进行的综合评估表明，它们在 EHRNoteQA 上的得分与通过临床医生评估的真实医学问题的表现更密切相关，凸显了 EHRNoteQA 在评估医学应用的 LLMs 中的重要性，以及它在促进 LLMs 融入医疗系统中的关键作用。该数据集将在 PhysioNet 凭据访问下向公众提供，促进这个重要领域的进一步研究。

Abstract

This study introduces ehrnoteqa, a novel patient-specific question answering benchmark tailored for evaluating large language models (LLMs) in clinical environments. Based on MIMIC-IV Electronic Health Record (EH

ehrnoteqa large language models clinical environments multi-choice question answering real-world medical questions

发现论文，激发创造

大型语言模型的临床文档动态问答

利用大型语言模型 (LLMs) 对临床记录进行动态问答的自然语言接口引入了一种新的方法。我们的聊天机器人通过 Langchain 和基于变压器的 LLMs 实现，允许用户用自然语言查询并从临床记录中获得相关答案。经过利用各种嵌入模型和先进的 LLMs 的实验表明，Wizard Vicuna 具有更高的准确性，尽管计算需求较高。模型优化，包括重量量化，使延迟时间提高了约 48 倍。有希望的结果表明，充分利用临床记录的价值和推进基于 AI 的临床决策的发展还面临一些挑战，如模型幻觉和有限的多样化医疗案例评估。解决这些差距对于释放临床记录的价值和推进基于 AI 的临床决策具有重要意义。

Jan, 2024

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

K-QA：实际医疗问答基准

通过构建 K-QA 数据集，使用自然语言处理模型评估，在临床环境中确保大型语言模型提供的回答的准确性至关重要。

Jan, 2024

emrQA：基于电子病历的问题回答的大型语料库

通过重新利用其他 NLP 任务的现有注释，我们提出了一种新的方法来生成特定领域的大规模问答（QA）数据集。我们利用社区共享的 i2b2 数据集中临床笔记的现有专家注释，生成了大规模的电子医疗记录 QA 数据集 emrQA，其中包含 100 万个问题 - 逻辑形式对和 40 多万个问题 - 答案证据对，并通过基线模型训练来探索其学习潜力。

Sep, 2018

医疗领域中的大型语言模型：一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

M-QALM: 通过问答评估大型语言模型在临床阅读理解和知识回忆方面的能力

研究了大型语言模型在临床和生物医学领域中与相关知识的召回和整合性方面的性能，发现指导调优等因素能够提高召回和理解能力，并展示了在医学知识数据集上进行直接微调的鼓舞人心的结果，为语言模型中的临床知识表示学习的进一步发展提供资源和标准方法论。

Jun, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种 LLMs（如 GPT 和 Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024

患者与人工智能之间的电子病历交互：NoteAid 电子病历交互

使用大型语言模型（LLMs）开发的 NoteAid EHR 交互流水线通过生成式 LLMs 的创新方法，帮助患者理解电子健康记录（EHRs），并提供有关 EHR 内容的解释和患者提问后的回答。研究使用 MIMIC 出院摘要和 MADE 医疗笔记收集的数据集，通过 NoteAid EHR 交互流水线执行这两个任务，并通过 LLM 评估和手动评估展示了 LLMs 在患者教育中的潜力。同时，这些结果为未来的探索和应用提供了宝贵的数据支持，并提供了用于内部系统训练的高质量合成数据集。

Dec, 2023

评估针对患者个性化电子病历问题的 AI 聊天机器人

本文探讨了使用人工智能聊天机器人，基于临床笔记回答特定患者问题的实用性，评估并比较了多种大型语言模型系统（ChatGPT（3.5 和 4 版本），Google Bard 和 Claude）所生成的答案的准确性和相关性。

Jun, 2023

电子健康记录的问答：数据集和模型的综述

该研究对现有关于电子病历问答的工作进行了方法学综述，发现电子病历问答是相对较新且未被充分探索的研究领域，对于电子病历问答数据集和模型的使用进行了分析。

Oct, 2023