Jun, 2024

MEDIQ:用于自适应可靠医学推理的问答 LLMs

TL;DR在高风险领域如医疗推理中,目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍:现有的大语言模型被训练以回答任何问题,即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式,让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架,用于模拟逼真的临床交互过程,其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息;当专家系统对决策缺乏信心时,会通过追问问题来获取患者缺失的详细信息,而不会做出诊断决策。为了评估 MEDIQ,我们将 MEDQA 和 CRAFT-MD(用于诊断问题回答的医学基准测试)转化为交互式设置。我们开发了一个可靠的患者系统,并原型化了几个专家系统,首先表明直接命令最先进的大语言模型提问会降低临床推理的质量,表明将大语言模型适应于交互式信息寻求环境是困难的。然后,我们使用新的弃权模型来改进专家系统,更好地估计模型置信度,并决定是否追问更多问题,从而将诊断准确率提高了 20.3%;然而,性能仍然落后于完整信息均提供的理论上限(在实践中不切实际)。进一步分析表明,通过过滤不相关的上下文和重新格式化对话,可以提高交互性能。总体而言,我们的论文介绍了一个关于大语言模型可靠性的新问题,一个新的 MEDIQ 框架,并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。