MedBench:一个用于评估医学大型语言模型的大规模中文基准
提出了一个基于中文和本土文化框架的本地化医学基准评估工具 CMB,用于评估各类大型语言模型,包括中文和医学领域的模型,旨在促进在中国医学领域中普及和改进大型语言模型。
Aug, 2023
介绍了 TCM-Bench 综合评估 TCM 中大型语言模型性能的基准,提出了 TCMScore 作为评估 TCM 问题回答质量的指标,并从不同角度进行了综合实验分析,突出了大型语言模型在 TCM 领域的能力和局限性。
Jun, 2024
通过引入 CMExam 数据集,该研究在医学领域中解决了对大型语言模型进行评估的挑战,同时还通过对 CMExam 的深入分析,详细介绍了 LLMs 在中国医学中的表现和挑战。
Jun, 2023
通过引入 “中文医务人员考试”(EMPEC),我们在传统中文领域提出了一个规模庞大的医疗知识基准,它由 157,803 个考试题目组成,涵盖 124 个科目和 20 个医疗专业,包括眼科医生和听力学家等被较少涉及的职业。我们的实验表明,尽管 GPT-4 等领先模型的准确率超过 75%,但它们在特殊领域和替代医学方面仍然存在困难。意外的是,通用领域的大型语言模型表现优于专门的医疗模型,并且融入 EMPEC 的训练数据显著提高了性能。此外,模型在训练截止日期后发布的问题上的结果与整体性能趋势一致,说明测试集上的模型表现可以预测其解决未见过的与医疗相关的查询的效果。传统汉字向简化汉字的过渡对模型性能影响微乎其微,表明其具有强大的语言适应性。我们的研究强调了扩大基准范围以涵盖更广泛的医疗职业的重要性,以更好地评估大型语言模型在实际医疗场景中的适用性。
Jun, 2024
为了促进医学大语言模型的研究,我们将中文生物医学语言理解评估 (CBLUE) 基准重新构建为一个大规模的提示调整基准,PromptCBLUE,用于评估中文大语言模型在广泛的生物医学任务上的多任务能力,包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容 / 对话生成。在这些任务上,我们已经进行了实验并报告了目前使用不同微调技术微调的 9 个中文大语言模型的结果。
Oct, 2023
评估医学中的大型语言模型 (LLMs) 时,与计算和基于逻辑的推理相反,当前的基准测试主要集中在涉及领域知识和描述性推理的问答上。然而,在现实世界的情况下,医生经常使用遵循定量方程和基于规则推理范例的临床计算器作为基于证据的决策支持。为此,我们提出了 MedCalc-Bench,这是一个首个针对评估 LLMs 在医学计算能力方面的数据集。MedCalc-Bench 包含了来自 55 个不同医学计算任务的 1000 多个手动审核实例的评估集。每个 MedCalc-Bench 实例包括患者记录、请求计算特定医学数值的问题、基本真相答案和逐步说明显示如何获取答案。尽管我们的评估结果显示 LLMs 在这个领域具有潜力,但它们还没有在临床环境中足够有效。常见问题包括提取错误的实体、不使用正确的方程式或规则进行计算任务,或错误地执行计算的算术操作。我们希望我们的研究能够突出 LLMs 在医学环境中的定量知识和推理差距,促进未来改进 LLMs 以用于各种临床计算任务。
Jun, 2024
将人工智能(AI)与临床诊断过程中的大型语言模型(LLMs)整合,可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试,评估 LLMs 在临床诊断中的能力,覆盖了多种临床病例的诊断,并包括与临床有关的任务,如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体,CliBench 能够深入了解 LLMs 在不同临床任务上的能力,从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。
Jun, 2024
该论文介绍了 MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
首次公开提供的法语生物医学语言理解基准 DrBenchmark,评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能,以及英语特定的 MLMs 来评估它们的跨语言能力。
Feb, 2024
通过对 LLMs 进行基于交互式医疗对话的实验评估,设计了一套涵盖医疗专业能力、社会综合能力、语境能力和计算机稳健性等方面的 16 个指标的评价标准,并针对这些标准选取了 ChatGPT, ERNIE Bot 和 Doctor PuJiang 三个聊天机器人进行了盲测试比较,其中 Doctor PuJiang 在多回合医疗对话和实证报告情景下表现最优。
May, 2023