比较大型语言模型 AI 和人类生成的辅导信息在行为性减重中的效果

Dec, 2023

比较大型语言模型 AI 和人类生成的辅导信息在行为性减重中的效果

Comparing Large Language Model AI and Human-Generated Coaching Messages for Behavioral Weight Loss

Zhuoran Huang, Michael P. Berry, Christina Chwyl, Gary Hsieh, Jing Wei...

TL;DR大型语言模型（LLM）人工智能聊天机器人如 ChatGPT 提供个性化和新颖的信息，试图解决重复性问题，但其效果可能不如人工辅导，该研究评估了 LLM 模型在体重控制辅导中的可行性和可接受性。

Abstract

automated coaching messages for weight control can save time and costs, but their repetitive, generic nature may limit their effectiveness compared to human coaching. →

automated coaching large language model ai chatbots weight control feasibility and acceptability

发现论文，激发创造

AI 是否能相似地感知：测试大型语言模型对精神健康支持的响应

我们开发了一个评估框架，以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径，并通过人工评估和心理学研究的自动质量评估指标，比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征，然后展示了患者子群之间存在统计上显著差异：对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心（比对照组低 2%-13%）。我们发现回应生成的方式显著影响回应的质量。最后，我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。

May, 2024

通过大型语言模型增强人类说服能力

经过调查，发现大型语言模型（LLMs）在金融行业消费者投诉中的使用与获取理想结果的可能性及语言特征改善相关，进一步实验证明了 LLM 在人类沟通中提升信息说服力的能力，并凸显了 LLM 在人类沟通中的转变潜力。

Nov, 2023

聊天机器人的人工智能革命：来自一项随机对照实验的证明

通过一个领域性的随机控制试验，评估基于大型语言模型的工具在提供无监控支持服务方面的有效性。

Jan, 2024

机器心理学：大型语言模型预测人类记忆

通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力，研究发现 ChatGPT 和人类的表现有惊人的一致性，尽管它们的内部机制可能存在显著差异，这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。

Mar, 2024

人类与 ChatGPT 生成的对话的语言比较

研究探讨人类和 LLM 生成的对话之间的语言差异，并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计（LIWC）分析，在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色，但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异，加强了 LLM “更接近人类” 的最新发现。然而，在正面或负面情感方面，ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明，尽管对话中未明确提及情感，但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集，其中包含两个独立的聊天机器人之间的对话，这些对话旨在复制一个开放可访问的人类对话语料库，广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解，并为区分人类和 LLM 生成的文本的持续努力提供了信息，这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。

Jan, 2024

计算机编程中生成型人工智能反馈的学生认知和偏好

ChatGPT 在自动化给予 Java 编程作业反馈方面的可行性进行了研究，调查结果表明学生们普遍认为 ChatGPT 反馈与 Shute 建立的形成性反馈准则相一致，他们更喜欢包含他们代码的反馈，此研究还提供了改进 ChatGPT 生成反馈的具体见解。

Dec, 2023

大型语言模型的编程技能评估

通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量，以一个真实世界的例子和系统的数据集为支撑，本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力，这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外，编程代码的复杂性常常升级到需要验证的难度，强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性，这对软件开发领域和其他领域具有重要意义。

May, 2024

打字疗法：大型语言模型聊天机器人在心理健康支持方面的经验

通过对来自不同国家背景的 21 位个体进行访谈，我们调查了使用 LLM 聊天机器人进行心理健康支持的人们的亲身经历，并对用户如何为他们的聊天机器人创造独特的支持角色、填补日常护理的空白以及在寻求聊天机器人支持时如何应对相关的文化限制进行了分析。我们将分析基于心理治疗文献中有效支持的概念，并介绍了治疗性对齐的概念，即将人工智能与心理健康背景下的治疗价值对齐。我们的研究为设计师如何以道德且有效的方式应对 LLM 聊天机器人和其他人工智能心理健康支持工具在心理健康护理中的使用提供了建议。

Jan, 2024

走向健康人工智能：大型语言模型也需要心理治疗师

本文提出 SafeguardGPT 框架，使用精神疗法纠正聊天机器人中具有潜在危害的行为，使得 AI chatbots 可以学习并适应人类喜好和价值观，以更安全、可靠和道德的方式，促进更加以人为中心和负责任的 AI 的发展。

Apr, 2023

在沟通性医疗辅导中对大型语言模型进行基准测试：一种新的系统和数据集

通过聊天对话系统，结合自然语言处理技术，开发出了一个医学交流技能辅导平台，有效帮助医学学习者提高沟通能力，并对比了使用不同的语言模型的效果。

Feb, 2024