AAAIDec, 2023

MedBench:一个用于评估医学大型语言模型的大规模中文基准

TL;DR为了解决医学大语言模型的评估工作耗时且需要大量人力的问题,我们引入了 MedBench,这是一个综合性的基准测试,包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估,MedBench 建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。