K-QA：实际医疗问答基准

Jan, 2024

K-QA: A Real-World Medical Q&A Benchmark

Itay Manes, Naama Ronn, David Cohen, Ran Ilan Ber, Zehavi Horowitz-Kugler...

TL;DR通过构建 K-QA 数据集，使用自然语言处理模型评估，在临床环境中确保大型语言模型提供的回答的准确性至关重要。

Abstract

Ensuring the accuracy of responses provided by large language models (LLMs) is crucial, particularly in clinical settings where incorrect

accuracy large language models clinical settings k-qa dataset evaluation metrics

发现论文，激发创造

M-QALM: 通过问答评估大型语言模型在临床阅读理解和知识回忆方面的能力

研究了大型语言模型在临床和生物医学领域中与相关知识的召回和整合性方面的性能，发现指导调优等因素能够提高召回和理解能力，并展示了在医学知识数据集上进行直接微调的鼓舞人心的结果，为语言模型中的临床知识表示学习的进一步发展提供资源和标准方法论。

Jun, 2024

EHRNoteQA：临床环境下评估大型语言模型的患者特定问题回答基准

这项研究介绍了 EHRNoteQA，这是一个为评估临床环境中大型语言模型（LLMs）而定制的创新患者特定问题回答基准。它是首个采用多项选择问题回答格式的数据集，通过分析多个临床记录来回答单个问题，与其他格式相比，在自动评估中有效地评估 LLMs 的可靠性得分。在各种大型语言模型上进行的综合评估表明，它们在 EHRNoteQA 上的得分与通过临床医生评估的真实医学问题的表现更密切相关，凸显了 EHRNoteQA 在评估医学应用的 LLMs 中的重要性，以及它在促进 LLMs 融入医疗系统中的关键作用。该数据集将在 PhysioNet 凭据访问下向公众提供，促进这个重要领域的进一步研究。

Feb, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种 LLMs（如 GPT 和 Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024

KG-Rank: 基于知识图谱和排序技术增强医学问答的大型语言模型

本研究开发了一个增强的 LLM 框架 KG-Rank，利用医学知识图谱和排名技术，旨在改善医学领域中的自由文本问答。评估结果显示，KG-Rank 在 ROUGE-L 得分上取得了超过 18% 的改进，证明了 KG-Rank 的有效性和潜力。

Mar, 2024

交互式 KBQA：大型语言模型的知识库问答多轮交互

通过与知识库进行直接交互生成逻辑形式，我们引入了 Interactive-KBQA 框架来解决知识库问答领域的问题，该框架包括三种通用 API 用于知识库交互，通过步骤推理过程注释数据集，展示了我们模型的适应性和潜力，并在低资源场景中以极少的示例达到了优秀的结果。

Feb, 2024

XAIQA：用于提取式问答的基于解释器的数据增强

使用医疗记录自然可用的数据，XAIQA 通过分类模型解释器生成大规模的合成问答对，提升了 GPT-4 作为抽取式问答模型的性能。

Dec, 2023

基于联合推理的疾病问答系统

通过综合自然语言处理和相关技术从多个信息源中合成信息，医用问答（QA）助手能够回答非专业用户的健康相关问题，解决了错误信息、信息过载和医学语言复杂性等问题，并减轻了医护人员的负担。本研究通过联合推理策略充分利用语言模型和知识图谱技术，设计了一种新颖的自动疾病问答系统，用于回答适合非专业用户的疾病相关问题，并通过多种质量指标评估其效力，优于流行的 ChatGPT 等基准系统。

Jan, 2024

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

通过多跳英文问题查询知识

本文介绍了一种基于控制语言 CNL 的知识编写和查询方法，通过对 KALM 系统的扩展，提出了可以回答更复杂问题的 KALM-QA，并与机器学习方法进行了对比，结果表明 KALM-QA 在回答电影相关问题方面能够达到 100% 的准确率。

Jul, 2019

RJUA-QA：一份完整的泌尿科问答数据集

我们介绍了 RJUA-QA，这是一个新颖的医学数据集，用于问题回答和与临床证据推理，有助于弥合通用大型语言模型（LLMs）与医学特定 LLM 应用之间的差距。

Dec, 2023