Sep, 2023

基础指标:基于生成式人工智能的医疗对话效果量化

TL;DR人工智能的生成模型将通过将传统医疗转变为更加个性化、高效和主动的过程来革命性地改变医疗服务的交付,而聊天机器人作为互动对话模型将可能推动医疗的这种以患者为中心的转变。通过提供诊断、个性化的生活方式建议和心理健康支持等各种服务,旨在显著增强患者的健康结果,同时减轻医疗服务提供者的工作负担。本文的目的是探索适用于评估医疗互动对话模型的最新大型语言模型(LLM)评估指标,并提出一套全面的评估指标,旨在从最终用户的角度全面评估医疗聊天机器人的性能。这些指标包括语言处理能力的评估、对真实世界临床任务的影响以及对用户互动对话的有效性评估。最后,我们对定义和实施这些指标所面临的挑战进行讨论,特别强调评估过程中涉及的目标受众、评估方法和提示技术等混淆因素。