Oct, 2023
MedEval:多层次、多任务、多领域的医学文本模型评估基准
MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation
TL;DR为了促进医疗语言模型的发展,本文介绍了一个多层次、多任务和多领域的医疗基准数据集MedEval,包含来自多个医疗系统的数据,跨越了8种检查模式的35个人体区域。我们对10个通用和领域特定的语言模型进行了系统评估,并发现语言模型在不同任务上的效果不同。同时,我们强调了对少样本使用大型语言模型进行指导调整的重要性。研究结果为医疗领域的语言模型基准测试提供了参考,并深入探讨了采用大型语言模型在医疗领域的优势和局限性,为其实际应用和未来发展提供了重要启示。