基础指标：基于生成式人工智能的医疗对话效果量化

Sep, 2023

基础指标：基于生成式人工智能的医疗对话效果量化

Foundation Metrics: Quantifying Effectiveness of Healthcare Conversations powered by Generative AI

Mahyar Abbasian, Elahe Khatibi, Iman Azimi, David Oniani, Zahra Shakeri Hossein Abad...

TL;DR人工智能的生成模型将通过将传统医疗转变为更加个性化、高效和主动的过程来革命性地改变医疗服务的交付，而聊天机器人作为互动对话模型将可能推动医疗的这种以患者为中心的转变。通过提供诊断、个性化的生活方式建议和心理健康支持等各种服务，旨在显著增强患者的健康结果，同时减轻医疗服务提供者的工作负担。本文的目的是探索适用于评估医疗互动对话模型的最新大型语言模型（LLM）评估指标，并提出一套全面的评估指标，旨在从最终用户的角度全面评估医疗聊天机器人的性能。这些指标包括语言处理能力的评估、对真实世界临床任务的影响以及对用户互动对话的有效性评估。最后，我们对定义和实施这些指标所面临的挑战进行讨论，特别强调评估过程中涉及的目标受众、评估方法和提示技术等混淆因素。

Abstract

generative artificial intelligence is set to revolutionize healthcare delivery by transforming traditional patient care into a more personalized, efficient, and proactive process. Chatbots, serving as interactive conversational models, will probably drive this patient-centered transfor

generative artificial intelligence healthcare delivery interactive conversational models evaluation metrics healthcare chatbots

发现论文，激发创造

借助大型语言模型提升患者互动：数字健康中的对话人工智能的力量

通过四个案例研究展示了大型语言模型在医疗保健中的应用，包括分析 Reddit 上的心理健康讨论、为老年人进行认知参与开发个性化聊天机器人、总结医疗对话数据集和设计 AI 助力病患参与系统。同时讨论了在医疗保健环境中引入大型语言模型的道德考虑、最佳实践和指南。

Jun, 2024

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

通过提示逼近人类对社交聊天机器人的评估

提出了一种利用 GPT 模型进行对话系统评估的新框架，通过对模型进行特定条件训练来生成评估指标，采用少量的演示和指导进行提示，可以在自动化评估过程中取得与人类评价高度相关的结果。

Apr, 2023

医疗领域通用 AI 头像

最近在机器学习和自然语言处理方面的进展使得人工智能（AI）作为医疗行业中的有价值工具迅速发展起来。使用大型语言模型（LLMs）作为会话代理或聊天机器人有潜力帮助医生诊断患者、检测疾病的早期症状并为患者提供健康建议。本文重点探讨聊天机器人在医疗保健中的作用，并探索使用化身使得人工智能交互对患者更有吸引力的可能性。通过使用一个三类别提示字典和提示改进机制展示了一个通用 AI 化身应用的框架。建议采用两阶段方法对通用 AI 语言模型进行优化以创建不同的 AI 化身与用户讨论医疗问题。提示工程增强了聊天机器人的对话能力和个性特征，培养了与患者更加类似人类的互动。最终，将个性注入聊天机器人有可能增加患者参与度。未来研究方向包括探究如何提高聊天机器人对上下文的理解以及通过专门的医疗数据集进行精调以确保其输出的准确性。

Jan, 2024

医疗领域生成型大型语言模型人工评估的文献综述与框架

该研究回顾了健康医疗领域中基于大型语言模型的人工智能生成文本的人工评估方法，并使用 QUEST 框架提出了一个标准化和统一的人工评估方法，旨在提高可靠性和适用性。

May, 2024

评估针对患者个性化电子病历问题的 AI 聊天机器人

本文探讨了使用人工智能聊天机器人，基于临床笔记回答特定患者问题的实用性，评估并比较了多种大型语言模型系统（ChatGPT（3.5 和 4 版本），Google Bard 和 Claude）所生成的答案的准确性和相关性。

Jun, 2023

InCA: 大型语言模型的车载会话系统评估的重新思考

在研究中提出了一套特定于汽车问答系统的关键绩效指标（KPIs）和相应的数据集，通过初步的全面实证评估证明了该方法的有效性，并研究了在提示中使用不同角色的影响，发现这样做可以增强模型在评估中模拟多样观点的能力，从而反映具有不同背景的个体对于一个主题的感知。

Nov, 2023

一个用于心理健康中大型语言模型的新颖细致对话评估框架

我们提出了一个新颖的框架来评估大型语言模型（LLMs）的细致对话能力，将其应用于心理健康领域，并发现 GPT4 Turbo 在特定主题上表现出与经过验证的治疗师高度相关的成绩，从而帮助研究人员开发更好的 LLMs 以更积极地支持人们的生活。

Mar, 2024

基于 LLM 的聊天机器人性能评估：方法与指标

自动对话代理、聊天机器人、生成式人工智能工具、基准评估、E2E 基准评估在评估聊天机器人的准确性和有用性方面显示了比其他评测方法更好的结果。

Aug, 2023

整合性调查心理健康对话智能体以构建计算机科学与医学观点的桥梁

通过 PRISMA 框架综合文献综述，研究了 534 篇计算机科学和医学领域发表的关于建立与心理健康相关的对话代理的论文，发现了 136 篇重要论文，重点关注对话建模和实验设计技术的多样特征，建议以透明度、伦理和文化异质性为基础，实现心理健康对话代理的跨学科发展。

Oct, 2023