ACLJun, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

TL;DR近年来,大型语言模型(LLMs)在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集,评估了六种 LLMs(如 GPT 和 Mixtral)在医学知识回忆方面的能力,并揭示了此任务的复杂性。