Feb, 2024

在回答和解释棘手的医学问题上评估大型语言模型

TL;DR通过构建两个新的数据集,利用多个评估指标以及医学专家编写的解释进行实验,我们发现 LLMs 在回答医学问题方面表现出色,但是现有的基准测试数据集在捕捉真实临床病例的复杂性以及提供参考解释方面存在不足,因此需要开发新的度量指标以支持可解释医疗问答的未来研究。