Jun, 2024

MedBench:一个全面、标准和可靠的用于评估中文医学大型语言模型的基准系统

TL;DR在中国背景下建立的医学大型语言模型的评估过程,使用MedBench作为一个全面、标准化、可靠的基准系统,提供了最大的评估数据集,包括43个临床专业,实现了动态评估机制,为准备中国医学LLM的实际应用奠定了重要基础。