MedBench：一个全面、标准和可靠的用于评估中文医学大型语言模型的基准系统

Jun, 2024

MedBench：一个全面、标准和可靠的用于评估中文医学大型语言模型的基准系统

MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models

HTML

PDF

Mianxin Liu, Jinru Ding, Jie Xu, Weiguo Hu, Xiaoyang Li...

TL;DR在中国背景下建立的医学大型语言模型的评估过程，使用MedBench作为一个全面、标准化、可靠的基准系统，提供了最大的评估数据集，包括43个临床专业，实现了动态评估机制，为准备中国医学LLM的实际应用奠定了重要基础。

Abstract

Ensuring the general efficacy and goodness for human beings from medical large language models (LLM) before real-world deployment is crucial. However, a widely accepted and accessible evaluation process for medical LLM, especially in the →

发现论文，激发创造

在CMExam上对大型语言模型进行基准测试——一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对CMExam的深入分析，详细介绍了LLMs在中国医学中的表现和挑战。

Jun, 2023

麒麟医: 多阶段知识注入的先进医疗大型语言模型

将大型语言模型（LLMs）整合到医疗保健中存在潜力但也面临挑战。我们提出了一种多阶段训练方法，结合了专业域持续预训练（DCPT）、监督微调（SFT）和直接偏好优化（DPO），并引入一个包含医疗问答、纯文本、知识图谱和对话的3Gb中医数据集。通过我们的训练流程，医学LLM（Qilin-Med）表现出显著的性能提升，突破了Baichuan-7B在CMExam上的准确率，并在Huatuo-26M测试集上超过了SFT的性能，在BLEU-1和ROUGE1上分别达到16.66和27.44。这凸显了我们的训练方法在医疗应用中优化LLMs的优势。

Oct, 2023

PromptCBLUE: 医学领域的汉语提示调优基准

为了促进医学大语言模型的研究，我们将中文生物医学语言理解评估(CBLUE)基准重新构建为一个大规模的提示调整基准，PromptCBLUE，用于评估中文大语言模型在广泛的生物医学任务上的多任务能力，包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容/对话生成。在这些任务上，我们已经进行了实验并报告了目前使用不同微调技术微调的9个中文大语言模型的结果。

Oct, 2023

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了MedBench，这是一个综合性的基准测试，包括来自医学各领域的40,041个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

医疗领域中的大型语言模型: 一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

TCMBench：中医药领域大型语言模型综合评估基准

介绍了TCM-Bench综合评估TCM中大型语言模型性能的基准，提出了TCMScore作为评估TCM问题回答质量的指标，并从不同角度进行了综合实验分析，突出了大型语言模型在TCM领域的能力和局限性。

Jun, 2024

TCMD：一个用于评估大型语言模型的中医问答数据集

通过引入新的医学问答数据集TCMD，本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力，并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。

Jun, 2024

大型语言模型是否是真正的全才医护人员？超越医生考试进行健康专业基准测试

通过引入“中文医务人员考试”（EMPEC），我们在传统中文领域提出了一个规模庞大的医疗知识基准，它由 157,803 个考试题目组成，涵盖 124 个科目和 20 个医疗专业，包括眼科医生和听力学家等被较少涉及的职业。我们的实验表明，尽管 GPT-4 等领先模型的准确率超过 75％，但它们在特殊领域和替代医学方面仍然存在困难。意外的是，通用领域的大型语言模型表现优于专门的医疗模型，并且融入 EMPEC 的训练数据显著提高了性能。此外，模型在训练截止日期后发布的问题上的结果与整体性能趋势一致，说明测试集上的模型表现可以预测其解决未见过的与医疗相关的查询的效果。传统汉字向简化汉字的过渡对模型性能影响微乎其微，表明其具有强大的语言适应性。我们的研究强调了扩大基准范围以涵盖更广泛的医疗职业的重要性，以更好地评估大型语言模型在实际医疗场景中的适用性。

Jun, 2024

面向医疗的大型语言模型评估与构建

本研究提出了MedS-Bench，旨在评估大型语言模型在临床环境中的表现，填补了现有基准的不足。通过开发MedS-Ins数据集，我们为医学领域提供了大量指令微调的数据，能够有效提升模型在复杂临床任务上的表现。我们的成果不仅展示了MMedIns-Llama 3的优越性，还通过公开数据集促进了医疗领域的进一步研究与发展。

Aug, 2024