构建心理健康聊天机器人的信任:安全性指标和基于大型语言模型的评估工具
本文提出了以问卷为基础的聊天机器人心理健康评估方法,并针对一些开放式领域聊天机器人进行了评估,发现它们存在严重的心理健康问题,希望引起研究者的关注,从而提高聊天机器人在积极情感交互方面的能力。
Jan, 2022
通过开发具有理论和事实基础的聚焦于帮助寻求者积极影响的分类法以及创建具有细粒度标签的基准语料库,本研究在心理健康支持对话中分析使用BERT-base、RoBERTa-large和ChatGPT等流行语言模型以检测和理解不安全回应,并揭示ChatGPT在零样本和少样本范式中无法检测具有详细定义的安全类别,而经过微调的模型更加适用,为心理健康支持对话的对话安全研究提供了有价值的基准,并对改善真实应用中对话代理的设计和部署产生了重大影响。
Jul, 2023
人工智能的生成模型将通过将传统医疗转变为更加个性化、高效和主动的过程来革命性地改变医疗服务的交付,而聊天机器人作为互动对话模型将可能推动医疗的这种以患者为中心的转变。通过提供诊断、个性化的生活方式建议和心理健康支持等各种服务,旨在显著增强患者的健康结果,同时减轻医疗服务提供者的工作负担。本文的目的是探索适用于评估医疗互动对话模型的最新大型语言模型(LLM)评估指标,并提出一套全面的评估指标,旨在从最终用户的角度全面评估医疗聊天机器人的性能。这些指标包括语言处理能力的评估、对真实世界临床任务的影响以及对用户互动对话的有效性评估。最后,我们对定义和实施这些指标所面临的挑战进行讨论,特别强调评估过程中涉及的目标受众、评估方法和提示技术等混淆因素。
Sep, 2023
通过PRISMA框架综合文献综述,研究了534篇计算机科学和医学领域发表的关于建立与心理健康相关的对话代理的论文,发现了136篇重要论文,重点关注对话建模和实验设计技术的多样特征,建议以透明度、伦理和文化异质性为基础,实现心理健康对话代理的跨学科发展。
Oct, 2023
近年来,大型语言模型(LLM)在数字精神健康工具设计、开发和实施领域展示了潜在的机遇和风险,我们提出了四个应用领域,包括对需要关怀的个体的求助行为、社区关怀提供、机构和医疗关怀提供,以及更大规模的社会关怀生态系统,并思考了LLM技术如何提升心理健康。本文的发现有助于未来研究、倡导和监管工作,以创建更负责任、用户友好、公平和安全的基于LLM的精神健康治疗和干预工具。
Nov, 2023
通过对来自不同国家背景的21位个体进行访谈,我们调查了使用LLM聊天机器人进行心理健康支持的人们的亲身经历,并对用户如何为他们的聊天机器人创造独特的支持角色、填补日常护理的空白以及在寻求聊天机器人支持时如何应对相关的文化限制进行了分析。我们将分析基于心理治疗文献中有效支持的概念,并介绍了治疗性对齐的概念,即将人工智能与心理健康背景下的治疗价值对齐。我们的研究为设计师如何以道德且有效的方式应对LLM聊天机器人和其他人工智能心理健康支持工具在心理健康护理中的使用提供了建议。
Jan, 2024
我们提出了一个新颖的框架来评估大型语言模型(LLMs)的细致对话能力,将其应用于心理健康领域,并发现GPT4 Turbo在特定主题上表现出与经过验证的治疗师高度相关的成绩,从而帮助研究人员开发更好的LLMs以更积极地支持人们的生活。
Mar, 2024
总结和概括了大型语言模型(LLMs)在心理健康领域的应用,包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇,并指出了LLMs在心理健康问题检测和个性化医疗方面的有效性,同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及LLMs作为创新临床工具的进一步研究和发展的必要性,强调LLMs应该是专业心理健康服务的补充而非替代。
Feb, 2024
我们开发了一个评估框架,以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径,并通过人工评估和心理学研究的自动质量评估指标,比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像GPT-4这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征,然后展示了患者子群之间存在统计上显著差异:对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心(比对照组低2%-13%)。我们发现回应生成的方式显著影响回应的质量。最后,我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。
May, 2024
通过对有关心理健康支持的批判性问题的评估,本文提出了一个结构化框架,旨在应对与自主任务AI在心理健康领域的发展所相关的伦理和实际挑战,并定义了AI代理在支持心理健康方面的等级自主性、伦理要求和有益的默认行为。此外,评估了十种先进的语言模型,结果发现这些现有模型不能达到人类专业人员的标准,不能适应细微差别和理解上下文,可能导致用户受伤甚至加重症状。因此,需要探索解决方案来增强当前模型的安全性,以确保它们能可靠地检测和管理常见心理障碍的症状,从而避免对用户的伤害。这需要与我们研究中提出的伦理框架和默认行为相一致,强调模型开发人员有责任根据这些指南改进其系统,以防止当前人工智能技术对用户心理健康和安全造成风险。
Apr, 2024