你說給我聽”：一組基於 GPT-4 的行為改變支持對話數據集

SIGIRJan, 2024

你說給我聽”：一組基於 GPT-4 的行為改變支持對話數據集

"You tell me": A Dataset of GPT-4-Based Behaviour Change Support Conversations

Selina Meyer, David Elsweiler

TL;DR这篇研究报告介绍了一个包含用户与基于 GPT-4 的对话代理交互数据的数据集，用于探索行为改变的相关话题。该数据集提供了对话数据、用户语言分析、认知度量以及对基于大型语言模型生成的文本的用户反馈，可为基于真实交互设计此类系统提供有价值的见解。

Abstract

conversational agents are increasingly used to address emotional needs on top of information needs. One use case of increasing interest are counselling-style mental health and behaviour change interventions, with

conversational agents counselling-style mental health behaviour change interventions large language model user interactions

发现论文，激发创造

大型语言模型能否用于心理咨询？使用角色扮演对话分析 GPT-4 生成的回应

通过角色扮演情景中，由专家心理咨询师提供咨询对话的数据，标注咨询师的意图，并通过第三方咨询师的评估，发现 GPT-4 生成的回答在咨询对话数据中与人类咨询师的回答具有竞争力。

Feb, 2024

大型语言模型用于认知行为疗法中的响应生成：与苏格拉底式质询的比较研究

通过比较基于 LLMs 生成的回应与非基于 LLMs 生成的回应的系统，研究了生成回应对主观评价（如情绪变化、认知变化和对话质量）的影响。结果表明，使用 GPT-4 时，情绪变化、共情和其他对话品质显著改善，说明 GPT-4 具有较高的心理咨询能力。然而，研究还指出，即使使用了人类心理咨询数据集训练的对话模型，与基于情景的对话相比，并不能产生更好的结果。在使用了规则、情景或示例回应的系统中，可以通过人工专业人士提前使用 LLMs 生成示例回应或回应模板的方式呈现基于 LLMs 生成的回应，并且直接与用户在现实的心理健康服务中进行交互，这可能引发一些伦理问题。

Jan, 2024

ChatGPT 作为您的个人数据科学家

本研究介绍了一种基于 ChatGPT 的对话式自动化机器学习 (AutoML) 框架作为 “个人数据科学家”，通过多个语言模型实例构建了自然界面，展示了对话式数据科学的新概念，同时也突出了 ChatGPT 的潜在缺陷和改进机会。

May, 2023

PersonalityChat: 基于事实和特征的个性化对话建模的会话提炼

本文利用大型语言模型（LLM）通过个性化对话生成，基于个人特点和人格特质创建了一个合成对话数据集，从而证明了个性化对话模型和与 PersonaChat 相比的表现优势。

Jan, 2024

利用大型语言模型进行自动对话分析

这篇论文研究了使用大型语言模型 ChatGPT-3.5 在真实人机对话中执行对话行为检测的能力，并与专门的模型进行对比。研究发现，专门的模型和 ChatGPT 都没有达到令人满意的结果，低于人类表现，但 ChatGPT 显示出了潜在的潜力，并经常超过专门的检测模型。最后，论文深入探讨了 ChatGPT 的主要缺点，并提出了增强 LLM 能力的未来研究的指导。

Sep, 2023

ChatCounselor：一个用于心理健康支持的大型语言模型

ChatCounselor 是一种基于真实心理咨询对话构建的大型语言模型解决方案，它拥有专业心理学知识和咨询技巧，在咨询工作中具备专门化的能力；使用心理咨询评估的七个指标作为依据，通过 GPT-4 和精心设计的提示进行训练，ChatCounselor 在实际咨询问题上的表现超越了开源模型，接近于 ChatGPT，展示了通过高质量领域特定数据获得的模型能力的显著增强。

Sep, 2023

ChatGPT 角色扮演数据集：用户动机和模型自然度分析

通过分析 ChatGPT 在不同设定下的交互行为，我们深入研究了该模型在自然对话和角色扮演对话环境中的行为。我们引入了一个新的人工智能和人类对话的数据集，注释了用户动机和模型自然度，从而探究了人类如何与对话型人工智能模型进行交互以及人工智能模型的自然度。我们的研究突出了用户与 ChatGPT 进行交互时的动机多样性和人工智能模型的自然度差异，不仅展示了人与人工智能之间自然对话的微妙动态，也为提高人工智能与人类沟通的效果提供了新的途径。

Mar, 2024

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

利用 LLM 代理生成合成对话数据集

通过目标导向的对话式代理生成线性对话样本，实现与用户的对话以获取所需的线性模型信息，并通过人工和自动评估，包括使用 GPT-4 模仿人工评估指标的评估方法，验证对话的高质量性。

Jan, 2024

AI 是否能相似地感知：测试大型语言模型对精神健康支持的响应

我们开发了一个评估框架，以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径，并通过人工评估和心理学研究的自动质量评估指标，比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征，然后展示了患者子群之间存在统计上显著差异：对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心（比对照组低 2%-13%）。我们发现回应生成的方式显著影响回应的质量。最后，我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。

May, 2024