医疗咨询对话型 AI 处理的风险分级安全性
提出了一种风险感知的对话式搜索代理模型,平衡了回答用户查询和提出澄清问题的风险,并通过强化学习策略在 MSDialog 数据集上得到了比非风险感知基线更好的结果。
Jan, 2021
使用 GPT-3 模型进行医疗问题回答(MedQA)存在挑战和风险,分析表明 LLMs 对高风险的查询无法适当回应,生成错误的医疗信息、不安全的建议和可能被视为冒犯的内容。
Aug, 2023
通过提取上下文相关的信息、构建监督学习框架和整合领域专业知识,本研究聚焦于提高医疗信息的准确性,并强调了人本主义策略在适应医疗人工智能中的重要性。
Apr, 2024
本文提出了建立安全、负责任、适度的对话系统研究范围的新视角,包括 1) 虐待和有毒内容,2) 不公平和歧视,3) 道德和道德问题,4) 误导和隐私信息的风险。此外,从安全问题的曝光和检测的角度,回顾了评估大型模型安全性的主流方法。最后,就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。
Feb, 2023
通过知识引导和语义自监督方法,引入了一个医疗问题理解和回答系统,该系统可以对较长、详细和非正式措辞的患者提出的问题(称为 “消费者健康问题”)进行处理。
Sep, 2022
通过零样本学习,本研究探讨了预训练语言模型在准确分类医生与人工智能在健康咨询中的回答方面的有效性。实验结果表明,虽然预训练语言模型在语言理解方面表现出很强的能力,但其在医疗咨询中准确分类医生和人工智能生成的文本可能需要特定的语料库训练或其他技术。这项研究作为基准方法,显示了仅依赖零样本分类在医疗分类任务中的局限性,为医学文本分类领域的进一步研究奠定了基础,并为开发更有效的方法以准确分类医生和人工智能生成的健康咨询文本提供了信息。
Oct, 2023
本文探讨了使用人工智能聊天机器人,基于临床笔记回答特定患者问题的实用性,评估并比较了多种大型语言模型系统(ChatGPT(3.5 和 4 版本),Google Bard 和 Claude)所生成的答案的准确性和相关性。
Jun, 2023
最近在机器学习和自然语言处理方面的进展使得人工智能(AI)作为医疗行业中的有价值工具迅速发展起来。使用大型语言模型(LLMs)作为会话代理或聊天机器人有潜力帮助医生诊断患者、检测疾病的早期症状并为患者提供健康建议。本文重点探讨聊天机器人在医疗保健中的作用,并探索使用化身使得人工智能交互对患者更有吸引力的可能性。通过使用一个三类别提示字典和提示改进机制展示了一个通用 AI 化身应用的框架。建议采用两阶段方法对通用 AI 语言模型进行优化以创建不同的 AI 化身与用户讨论医疗问题。提示工程增强了聊天机器人的对话能力和个性特征,培养了与患者更加类似人类的互动。最终,将个性注入聊天机器人有可能增加患者参与度。未来研究方向包括探究如何提高聊天机器人对上下文的理解以及通过专门的医疗数据集进行精调以确保其输出的准确性。
Jan, 2024
在高风险领域如医疗推理中,目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍:现有的大语言模型被训练以回答任何问题,即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式,让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架,用于模拟逼真的临床交互过程,其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息;当专家系统对决策缺乏信心时,会通过追问问题来获取患者缺失的详细信息,而不会做出诊断决策。为了评估 MEDIQ,我们将 MEDQA 和 CRAFT-MD(用于诊断问题回答的医学基准测试)转化为交互式设置。我们开发了一个可靠的患者系统,并原型化了几个专家系统,首先表明直接命令最先进的大语言模型提问会降低临床推理的质量,表明将大语言模型适应于交互式信息寻求环境是困难的。然后,我们使用新的弃权模型来改进专家系统,更好地估计模型置信度,并决定是否追问更多问题,从而将诊断准确率提高了 20.3%;然而,性能仍然落后于完整信息均提供的理论上限(在实践中不切实际)。进一步分析表明,通过过滤不相关的上下文和重新格式化对话,可以提高交互性能。总体而言,我们的论文介绍了一个关于大语言模型可靠性的新问题,一个新的 MEDIQ 框架,并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。
Jun, 2024