电子健康记录的问答:数据集和模型的综述
医学问答系统的特点、适用性和改进领域是本综述的目标,研究发现大多数系统准确性相对较低、应用局限性高,关键研究重点应包括开发更真实的医疗问答数据集和考虑答案来源的可靠性。
Jan, 2024
该研究开发了第一个多模式药物电子健康记录问答数据集,其中包含从公开可用的电子健康记录中结构化表格和非结构化笔记中提取的问答对。研究目的是为多模式问答系统提供基准数据集,并通过使用非结构化临床数据的上下文来改善电子健康记录结构化数据上的问答。
May, 2022
提出了一种新的方法,自动生成用于 QA 模型的迁移学习的训练数据,该模型在电子健康记录的信息提取子任务中表现出色且能够有效处理少样本或零样本情况的问题。
Feb, 2024
通过重新利用其他 NLP 任务的现有注释,我们提出了一种新的方法来生成特定领域的大规模问答(QA)数据集。我们利用社区共享的 i2b2 数据集中临床笔记的现有专家注释,生成了大规模的电子医疗记录 QA 数据集 emrQA,其中包含 100 万个问题 - 逻辑形式对和 40 多万个问题 - 答案证据对,并通过基线模型训练来探索其学习潜力。
Sep, 2018
这项研究介绍了 EHRNoteQA,这是一个为评估临床环境中大型语言模型(LLMs)而定制的创新患者特定问题回答基准。它是首个采用多项选择问题回答格式的数据集,通过分析多个临床记录来回答单个问题,与其他格式相比,在自动评估中有效地评估 LLMs 的可靠性得分。在各种大型语言模型上进行的综合评估表明,它们在 EHRNoteQA 上的得分与通过临床医生评估的真实医学问题的表现更密切相关,凸显了 EHRNoteQA 在评估医学应用的 LLMs 中的重要性,以及它在促进 LLMs 融入医疗系统中的关键作用。该数据集将在 PhysioNet 凭据访问下向公众提供,促进这个重要领域的进一步研究。
Feb, 2024
利用 PubMed 作为可靠的医学研究文档集合,针对开放领域的问答设置,研究通过修改检索设置来提高问答系统性能的方法。结果显示,减少检索到的文档数量,偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。
Apr, 2024
医学问答系统存在适时回答临床医生有关治疗和诊断不确定性的潜力,但是由于透明度、可靠性和来源不可靠等因素未得到考虑,因此医学问答系统仍未被广泛应用。本文提出了一组标准,旨在提高生物医学问答系统的实用性,并评估了现有模型、任务和数据集,指出了以前提出方法的缺陷,并指出了可能更实用的医学问答系统。
Sep, 2021
我们提出了一种新的文本到 SQL 数据集,用于电子健康记录(EHRs)。该数据集提供了一个挑战,需要模型可以生成反映医院需求范围的 SQL 查询,包括简单检索和复杂操作,如计算生存率,同时需要理解时间表达式以回答与时间敏感相关的问题,并根据预测置信度区分问题是否有答案,以发展和评估结构化 EHR 数据上的 QA 模型并迈向文本到 SQL 研究和医疗保健方面部署之间的缩小差距。
Jan, 2023
本文介绍了 Discharge Summary Clinical Questions(DiSCQ)这一新的数据集,由 100 多个 MIMIC-III 出院摘要中的医学专家生成了 2000 多个问题。我们进行了基于触发词检测的质量评估,发现在 62% 的情况下,基线模型能够高质量地生成问题,并用无监督的答案检索对其进行配对。这项研究的目的是为了进一步研究现实临床问答和问句生成。
Jun, 2022
本论文深度分析医疗领域的机器阅读理解 (CliniRC) 任务,重点关注 emrQA 数据集的缺陷及性能,证明对于未来数据集的创建需考虑利用领域知识和通用性。
May, 2020