Sep, 2023
大型语言模型多轮医疗咨询自动评估框架
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models
Yusheng Liao, Yutong Meng, Hongcheng Liu, Yanfeng Wang, Yu Wang
TL;DR该研究介绍了一种自动评估框架,评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力,通过重构来自美国医疗执照考试的医学多项选择题,提出了一个基准测试集,并开发了综合评估指标。研究结果表明,使用培训集对大型语言模型进行微调,可以减轻幻觉并提高其在所提出基准上的性能。