MedQA-CS：使用AI-SCE框架对大型语言模型临床技能的基准测试

Oct, 2024

MedQA-CS：使用AI-SCE框架对大型语言模型临床技能的基准测试

MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an AI-SCE Framework

Zonghai Yao, Zihao Zhang, Chaolong Tang, Xingyu Bian, Youxia Zhao...

TL;DR本研究解决了现有基准无法全面评估大型语言模型在医疗健康领域的临床技能的问题。我们提出的MedQA-CS框架借鉴了医学教育中的客观结构化临床考试，提供了一种包括公开数据和专家注释的全面评估方式，评估结果表明MedQA-CS在临床技能评估上比传统的选择题基准更具挑战性。这项工作的潜在影响在于推动对临床能力评估更加全面的标准建立。

Abstract

Artificial Intelligence (AI) and Large Language Models (LLMs) in healthcare require advanced Clinical Skills (CS), yet current benchmarks

发现论文，激发创造

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了MedBench，这是一个综合性的基准测试，包括来自医学各领域的40,041个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现GPT-4整体表现优于其他LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证LLMs在处理复杂医学数据方面的能力，并为将来在专门领域的LLM评估建立基准。

Jan, 2024

使用具有状态感知病人模拟器的自动交互式评估大型语言模型

通过引入自动交互评估（AIE）框架和状态感知患者模拟器（SAPS），本文介绍了一种增强大型语言模型（LLMs）在医疗保健领域应用的方法，通过多轮医患模拟来评估LLMs的性能，从而更好地满足临床实践的需求。实验证明了AIE框架的有效性，并与人类评估结果一致，强调其改进医疗保健交付的潜力。

Mar, 2024

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

医疗领域中的大型语言模型: 一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

MultifacetEval: 探索LLM在掌握医学知识中的多方面评估

目前的大型语言模型在实际应用于医学领域中的任务时，存在显著的实际效果与报道性能之间的差距，这篇论文通过多方面的评估方法发现当前大型语言模型在医学知识的掌握方面缺乏深度、准确性和全面性，因此尚不适用于真实医学任务。

Jun, 2024

MedCalc-Bench: 评估医学计算中的大型语言模型

评估医学中的大型语言模型(LLMs)时，与计算和基于逻辑的推理相反，当前的基准测试主要集中在涉及领域知识和描述性推理的问答上。然而，在现实世界的情况下，医生经常使用遵循定量方程和基于规则推理范例的临床计算器作为基于证据的决策支持。为此，我们提出了MedCalc-Bench，这是一个首个针对评估LLMs在医学计算能力方面的数据集。MedCalc-Bench包含了来自55个不同医学计算任务的1000多个手动审核实例的评估集。每个MedCalc-Bench实例包括患者记录、请求计算特定医学数值的问题、基本真相答案和逐步说明显示如何获取答案。尽管我们的评估结果显示LLMs在这个领域具有潜力，但它们还没有在临床环境中足够有效。常见问题包括提取错误的实体、不使用正确的方程式或规则进行计算任务，或错误地执行计算的算术操作。我们希望我们的研究能够突出LLMs在医学环境中的定量知识和推理差距，促进未来改进LLMs以用于各种临床计算任务。

Jun, 2024

面向医疗的大型语言模型评估与构建

本研究提出了MedS-Bench，旨在评估大型语言模型在临床环境中的表现，填补了现有基准的不足。通过开发MedS-Ins数据集，我们为医学领域提供了大量指令微调的数据，能够有效提升模型在复杂临床任务上的表现。我们的成果不仅展示了MMedIns-Llama 3的优越性，还通过公开数据集促进了医疗领域的进一步研究与发展。

Aug, 2024

MEDIC：构建一个全面的框架以评估临床应用中的大型语言模型

该研究针对现有评估方法无法全面反映大型语言模型在临床应用中的表现这一问题，提出了一种新的评估框架MEDIC，涵盖医疗推理、伦理与偏见、数据与语言理解、情境学习和临床安全等五个关键维度。研究结果揭示了不同模型间的性能差异，为在特定应用中选择合适的模型提供了重要指导，确保在医疗行业中识别并调整最具潜力的模型以满足多样化需求。

Sep, 2024

医疗任务中的大型语言模型基准

本研究针对大型语言模型在医疗领域应用中的评估需求，提供了对多种医疗基准数据集的全面调查。这些数据集涵盖文本、图像及多模态内容，针对电子健康记录和临床任务的发展，提出了多样化数据集的重要性及其对医学人工智能的潜在影响。

Oct, 2024