Sep, 2023

大型语言模型多轮医疗咨询自动评估框架

TL;DR该研究介绍了一种自动评估框架,评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力,通过重构来自美国医疗执照考试的医学多项选择题,提出了一个基准测试集,并开发了综合评估指标。研究结果表明,使用培训集对大型语言模型进行微调,可以减轻幻觉并提高其在所提出基准上的性能。