你說給我聽”:一組基於 GPT-4 的行為改變支持對話數據集
通过角色扮演情景中,由专家心理咨询师提供咨询对话的数据,标注咨询师的意图,并通过第三方咨询师的评估,发现 GPT-4 生成的回答在咨询对话数据中与人类咨询师的回答具有竞争力。
Feb, 2024
通过比较基于 LLMs 生成的回应与非基于 LLMs 生成的回应的系统,研究了生成回应对主观评价(如情绪变化、认知变化和对话质量)的影响。结果表明,使用 GPT-4 时,情绪变化、共情和其他对话品质显著改善,说明 GPT-4 具有较高的心理咨询能力。然而,研究还指出,即使使用了人类心理咨询数据集训练的对话模型,与基于情景的对话相比,并不能产生更好的结果。在使用了规则、情景或示例回应的系统中,可以通过人工专业人士提前使用 LLMs 生成示例回应或回应模板的方式呈现基于 LLMs 生成的回应,并且直接与用户在现实的心理健康服务中进行交互,这可能引发一些伦理问题。
Jan, 2024
本研究介绍了一种基于 ChatGPT 的对话式自动化机器学习 (AutoML) 框架作为 “个人数据科学家”,通过多个语言模型实例构建了自然界面,展示了对话式数据科学的新概念,同时也突出了 ChatGPT 的潜在缺陷和改进机会。
May, 2023
本文利用大型语言模型(LLM)通过个性化对话生成,基于个人特点和人格特质创建了一个合成对话数据集,从而证明了个性化对话模型和与 PersonaChat 相比的表现优势。
Jan, 2024
这篇论文研究了使用大型语言模型 ChatGPT-3.5 在真实人机对话中执行对话行为检测的能力,并与专门的模型进行对比。研究发现,专门的模型和 ChatGPT 都没有达到令人满意的结果,低于人类表现,但 ChatGPT 显示出了潜在的潜力,并经常超过专门的检测模型。最后,论文深入探讨了 ChatGPT 的主要缺点,并提出了增强 LLM 能力的未来研究的指导。
Sep, 2023
ChatCounselor 是一种基于真实心理咨询对话构建的大型语言模型解决方案,它拥有专业心理学知识和咨询技巧,在咨询工作中具备专门化的能力;使用心理咨询评估的七个指标作为依据,通过 GPT-4 和精心设计的提示进行训练,ChatCounselor 在实际咨询问题上的表现超越了开源模型,接近于 ChatGPT,展示了通过高质量领域特定数据获得的模型能力的显著增强。
Sep, 2023
通过分析 ChatGPT 在不同设定下的交互行为,我们深入研究了该模型在自然对话和角色扮演对话环境中的行为。我们引入了一个新的人工智能和人类对话的数据集,注释了用户动机和模型自然度,从而探究了人类如何与对话型人工智能模型进行交互以及人工智能模型的自然度。我们的研究突出了用户与 ChatGPT 进行交互时的动机多样性和人工智能模型的自然度差异,不仅展示了人与人工智能之间自然对话的微妙动态,也为提高人工智能与人类沟通的效果提供了新的途径。
Mar, 2024
该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。
Feb, 2024
通过目标导向的对话式代理生成线性对话样本,实现与用户的对话以获取所需的线性模型信息,并通过人工和自动评估,包括使用 GPT-4 模仿人工评估指标的评估方法,验证对话的高质量性。
Jan, 2024
我们开发了一个评估框架,以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径,并通过人工评估和心理学研究的自动质量评估指标,比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征,然后展示了患者子群之间存在统计上显著差异:对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心(比对照组低 2%-13%)。我们发现回应生成的方式显著影响回应的质量。最后,我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。
May, 2024