Feb, 2025

MedHallu:用于检测大语言模型医疗幻觉的综合基准

TL;DR本文针对大语言模型在医疗问答中出现的幻觉问题,提出了第一个专门设计的医疗幻觉检测基准MedHallu。该基准包含来自PubMedQA的10,000对高质量问答,研究表明现有的先进模型在检测幻觉方面存在明显不足,而引入领域特定知识和“无确定答案”选项能够显著提高检测的精确度和F1分数。