医疗咨询对话型 AI 处理的风险分级安全性

ACLOct, 2022

医疗咨询对话型 AI 处理的风险分级安全性

Risk-graded Safety for Handling Medical Queries in Conversational AI

Gavin Abercrombie, Verena Rieser

TL;DR病人咨询聊天机器人可能存在安全风险，研究表明需要在较高水平意识医疗词汇的基础上，对聊天机器人进行编程设置以适应各种不同的风险等级，同时协同众包技术来对医疗问题进行标注，以提高有效性，而自动化技术在此应用上还需要更多的谨慎和实验验证。

Abstract

conversational ai systems can engage in unsafe behaviour when handling users' medical queries that can have severe consequences and could even lead to deaths. Systems therefore need to be capable of both recognis

conversational ai medical queries risk levels crowdsourced annotations automation

发现论文，激发创造

通过强化学习来控制会话式搜索的风险

提出了一种风险感知的对话式搜索代理模型，平衡了回答用户查询和提出澄清问题的风险，并通过强化学习策略在 MSDialog 数据集上得到了比非风险感知基线更好的结果。

Jan, 2021

基于 GPT-3 的医疗会话代理的挑战

使用 GPT-3 模型进行医疗问题回答（MedQA）存在挑战和风险，分析表明 LLMs 对高风险的查询无法适当回应，生成错误的医疗信息、不安全的建议和可能被视为冒犯的内容。

Aug, 2023

MediFact 在 MEDIQA-CORR 2024：为何人工智能需要人类的触摸

通过提取上下文相关的信息、构建监督学习框架和整合领域专业知识，本研究聚焦于提高医疗信息的准确性，并强调了人本主义策略在适应医疗人工智能中的重要性。

Apr, 2024

安全，负责和道德对话系统的最新进展：综述

本文提出了建立安全、负责任、适度的对话系统研究范围的新视角，包括 1) 虐待和有毒内容，2) 不公平和歧视，3) 道德和道德问题，4) 误导和隐私信息的风险。此外，从安全问题的曝光和检测的角度，回顾了评估大型模型安全性的主流方法。最后，就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。

Feb, 2023

医学问题理解和回答：基于知识基础和语义自我监督

通过知识引导和语义自监督方法，引入了一个医疗问题理解和回答系统，该系统可以对较长、详细和非正式措辞的患者提出的问题（称为 “消费者健康问题”）进行处理。

Sep, 2022

医学人工智能对话语料库 (MEDIC): 医生和人工智能在健康咨询中的零封闭分类

通过零样本学习，本研究探讨了预训练语言模型在准确分类医生与人工智能在健康咨询中的回答方面的有效性。实验结果表明，虽然预训练语言模型在语言理解方面表现出很强的能力，但其在医疗咨询中准确分类医生和人工智能生成的文本可能需要特定的语料库训练或其他技术。这项研究作为基准方法，显示了仅依赖零样本分类在医疗分类任务中的局限性，为医学文本分类领域的进一步研究奠定了基础，并为开发更有效的方法以准确分类医生和人工智能生成的健康咨询文本提供了信息。

Oct, 2023

评估针对患者个性化电子病历问题的 AI 聊天机器人

本文探讨了使用人工智能聊天机器人，基于临床笔记回答特定患者问题的实用性，评估并比较了多种大型语言模型系统（ChatGPT（3.5 和 4 版本），Google Bard 和 Claude）所生成的答案的准确性和相关性。

Jun, 2023

医疗领域通用 AI 头像

最近在机器学习和自然语言处理方面的进展使得人工智能（AI）作为医疗行业中的有价值工具迅速发展起来。使用大型语言模型（LLMs）作为会话代理或聊天机器人有潜力帮助医生诊断患者、检测疾病的早期症状并为患者提供健康建议。本文重点探讨聊天机器人在医疗保健中的作用，并探索使用化身使得人工智能交互对患者更有吸引力的可能性。通过使用一个三类别提示字典和提示改进机制展示了一个通用 AI 化身应用的框架。建议采用两阶段方法对通用 AI 语言模型进行优化以创建不同的 AI 化身与用户讨论医疗问题。提示工程增强了聊天机器人的对话能力和个性特征，培养了与患者更加类似人类的互动。最终，将个性注入聊天机器人有可能增加患者参与度。未来研究方向包括探究如何提高聊天机器人对上下文的理解以及通过专门的医疗数据集进行精调以确保其输出的准确性。

Jan, 2024

使用 AI 聊天机器人回复患者消息的影响

通过人工智能聊天机器人辅助文档整理，可以减轻医生的文档负担，提高工作效率并改善患者护理情况。

Oct, 2023

MEDIQ：用于自适应可靠医学推理的问答 LLMs

在高风险领域如医疗推理中，目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍：现有的大语言模型被训练以回答任何问题，即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式，让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架，用于模拟逼真的临床交互过程，其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息；当专家系统对决策缺乏信心时，会通过追问问题来获取患者缺失的详细信息，而不会做出诊断决策。为了评估 MEDIQ，我们将 MEDQA 和 CRAFT-MD（用于诊断问题回答的医学基准测试）转化为交互式设置。我们开发了一个可靠的患者系统，并原型化了几个专家系统，首先表明直接命令最先进的大语言模型提问会降低临床推理的质量，表明将大语言模型适应于交互式信息寻求环境是困难的。然后，我们使用新的弃权模型来改进专家系统，更好地估计模型置信度，并决定是否追问更多问题，从而将诊断准确率提高了 20.3%；然而，性能仍然落后于完整信息均提供的理论上限（在实践中不切实际）。进一步分析表明，通过过滤不相关的上下文和重新格式化对话，可以提高交互性能。总体而言，我们的论文介绍了一个关于大语言模型可靠性的新问题，一个新的 MEDIQ 框架，并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。

Jun, 2024