比较大型语言模型 AI 和人类生成的辅导信息在行为性减重中的效果
我们开发了一个评估框架,以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径,并通过人工评估和心理学研究的自动质量评估指标,比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征,然后展示了患者子群之间存在统计上显著差异:对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心(比对照组低 2%-13%)。我们发现回应生成的方式显著影响回应的质量。最后,我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。
May, 2024
经过调查,发现大型语言模型(LLMs)在金融行业消费者投诉中的使用与获取理想结果的可能性及语言特征改善相关,进一步实验证明了 LLM 在人类沟通中提升信息说服力的能力,并凸显了 LLM 在人类沟通中的转变潜力。
Nov, 2023
通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力,研究发现 ChatGPT 和人类的表现有惊人的一致性,尽管它们的内部机制可能存在显著差异,这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。
Mar, 2024
研究探讨人类和 LLM 生成的对话之间的语言差异,并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了 LLM “更接近人类” 的最新发现。然而,在正面或负面情感方面,ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解,并为区分人类和 LLM 生成的文本的持续努力提供了信息,这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
ChatGPT 在自动化给予 Java 编程作业反馈方面的可行性进行了研究,调查结果表明学生们普遍认为 ChatGPT 反馈与 Shute 建立的形成性反馈准则相一致,他们更喜欢包含他们代码的反馈,此研究还提供了改进 ChatGPT 生成反馈的具体见解。
Dec, 2023
通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量,以一个真实世界的例子和系统的数据集为支撑,本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力,这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外,编程代码的复杂性常常升级到需要验证的难度,强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性,这对软件开发领域和其他领域具有重要意义。
May, 2024
通过对来自不同国家背景的 21 位个体进行访谈,我们调查了使用 LLM 聊天机器人进行心理健康支持的人们的亲身经历,并对用户如何为他们的聊天机器人创造独特的支持角色、填补日常护理的空白以及在寻求聊天机器人支持时如何应对相关的文化限制进行了分析。我们将分析基于心理治疗文献中有效支持的概念,并介绍了治疗性对齐的概念,即将人工智能与心理健康背景下的治疗价值对齐。我们的研究为设计师如何以道德且有效的方式应对 LLM 聊天机器人和其他人工智能心理健康支持工具在心理健康护理中的使用提供了建议。
Jan, 2024
本文提出 SafeguardGPT 框架,使用精神疗法纠正聊天机器人中具有潜在危害的行为,使得 AI chatbots 可以学习并适应人类喜好和价值观,以更安全、可靠和道德的方式,促进更加以人为中心和负责任的 AI 的发展。
Apr, 2023
通过聊天对话系统,结合自然语言处理技术,开发出了一个医学交流技能辅导平台,有效帮助医学学习者提高沟通能力,并对比了使用不同的语言模型的效果。
Feb, 2024