Jul, 2024

大型语言模型在医疗问题回答中的不确定性估计

TL;DR大型语言模型(LLM)在医疗保健领域的自然语言生成中显示出潜力,但存在产生错误信息的风险。本研究在医学问答领域部署LLM需要可靠的不确定性估计(UE)方法来检测错误信息。通过在医学问答数据集上使用不同模型大小的流行UE方法进行比较,我们的结果表明目前的方法在这个领域中的表现普遍较差,强调了医疗应用中UE的挑战。我们还观察到较大模型往往产生更好的结果,暗示了模型大小与UE可靠性之间的相关性。为了解决这些挑战,我们提出了Two-phase Verification,一种无需概率的不确定性估计方法。首先,LLM生成一步一步的解释以及初始回答,然后提出验证问题来检查解释中的事实主张,模型对这些问题进行两次回答:首先独立回答,然后参考解释回答。两组答案之间的不一致性衡量了原始回答的不确定性。我们使用Llama 2 Chat模型在三个生物医学问答数据集上评估我们的方法,并将其与基准方法进行比较。结果表明,我们的Two-phase Verification方法在各种数据集和模型大小上都实现了最佳的整体准确性和稳定性,并且随着模型大小的增加,其性能也会提升。