MedBench:一个全面、标准和可靠的用于评估中文医学大型语言模型的基准系统
通过引入 CMExam 数据集,该研究在医学领域中解决了对大型语言模型进行评估的挑战,同时还通过对CMExam的深入分析,详细介绍了LLMs在中国医学中的表现和挑战。
Jun, 2023
将大型语言模型(LLMs)整合到医疗保健中存在潜力但也面临挑战。我们提出了一种多阶段训练方法,结合了专业域持续预训练(DCPT)、监督微调(SFT)和直接偏好优化(DPO),并引入一个包含医疗问答、纯文本、知识图谱和对话的3Gb中医数据集。通过我们的训练流程,医学LLM(Qilin-Med)表现出显著的性能提升,突破了Baichuan-7B在CMExam上的准确率,并在Huatuo-26M测试集上超过了SFT的性能,在BLEU-1和ROUGE1上分别达到16.66和27.44。这凸显了我们的训练方法在医疗应用中优化LLMs的优势。
Oct, 2023
为了促进医学大语言模型的研究,我们将中文生物医学语言理解评估(CBLUE)基准重新构建为一个大规模的提示调整基准,PromptCBLUE,用于评估中文大语言模型在广泛的生物医学任务上的多任务能力,包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容/对话生成。在这些任务上,我们已经进行了实验并报告了目前使用不同微调技术微调的9个中文大语言模型的结果。
Oct, 2023
为了解决医学大语言模型的评估工作耗时且需要大量人力的问题,我们引入了MedBench,这是一个综合性的基准测试,包括来自医学各领域的40,041个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估,MedBench建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。
Dec, 2023
该论文介绍了MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
介绍了TCM-Bench综合评估TCM中大型语言模型性能的基准,提出了TCMScore作为评估TCM问题回答质量的指标,并从不同角度进行了综合实验分析,突出了大型语言模型在TCM领域的能力和局限性。
Jun, 2024
通过引入新的医学问答数据集TCMD,本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力,并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。
Jun, 2024
通过引入“中文医务人员考试”(EMPEC),我们在传统中文领域提出了一个规模庞大的医疗知识基准,它由 157,803 个考试题目组成,涵盖 124 个科目和 20 个医疗专业,包括眼科医生和听力学家等被较少涉及的职业。我们的实验表明,尽管 GPT-4 等领先模型的准确率超过 75%,但它们在特殊领域和替代医学方面仍然存在困难。意外的是,通用领域的大型语言模型表现优于专门的医疗模型,并且融入 EMPEC 的训练数据显著提高了性能。此外,模型在训练截止日期后发布的问题上的结果与整体性能趋势一致,说明测试集上的模型表现可以预测其解决未见过的与医疗相关的查询的效果。传统汉字向简化汉字的过渡对模型性能影响微乎其微,表明其具有强大的语言适应性。我们的研究强调了扩大基准范围以涵盖更广泛的医疗职业的重要性,以更好地评估大型语言模型在实际医疗场景中的适用性。
Jun, 2024
本研究提出了MedS-Bench,旨在评估大型语言模型在临床环境中的表现,填补了现有基准的不足。通过开发MedS-Ins数据集,我们为医学领域提供了大量指令微调的数据,能够有效提升模型在复杂临床任务上的表现。我们的成果不仅展示了MMedIns-Llama 3的优越性,还通过公开数据集促进了医疗领域的进一步研究与发展。
Aug, 2024