自然语言生成对话服务的聊天体验的预测因素是什么?
研究通过部分最小二乘结构方程模型(PLS-SEM)调查了学生对教育中聊天机器人采纳的决定因素,考虑了技术准备指数(TRI)和技术接受模型(TAM),结果表明乐观和创新与感知易用性和感知有用性呈正相关,而不适和不安全对感知易用性有负面影响,只有不安全对感知有用性有负面影响。这些发现为未来的技术设计者提供了洞察力,阐明了影响教育环境中聊天机器人采纳和利用的关键用户行为因素。
Nov, 2023
提出了一种利用 GPT 模型进行对话系统评估的新框架,通过对模型进行特定条件训练来生成评估指标,采用少量的演示和指导进行提示,可以在自动化评估过程中取得与人类评价高度相关的结果。
Apr, 2023
本文提出了一个基于即时聊天的客户支持 (CS) 互动的框架,用于预测个体用户的推荐决策。通过分析一家拉丁美洲大型电子商务公司金融垂直领域内的 16.4k 用户和 48.7k 客户支持对话,本研究的主要贡献和目标是利用自然语言处理(NLP)来评估和预测推荐行为,在使用静态情感分析的同时利用每个用户的情感动态的预测能力。结果表明,通过信息级别的情感演变,可以完全自动化地预测用户推荐产品或服务的概率以及相关的功能解释。
Nov, 2022
使用 ChatGPT 为基础的对话式推荐系统研究了 Prompt Guidance(PG)和 Recommendation Domain(RD)这两个因素对系统整体用户体验的影响,并发现 PG 可以大大提升系统的可解释性、适应性、感知易用性和透明度,而用户在书籍推荐领域相较于职位推荐领域更倾向于感知到新颖性,并展现更高的从事和尝试推荐项目的倾向。此外,PG 对某些用户体验度量和交互行为的影响似乎受到推荐领域的调节,这也证明了这两个因素之间的交互效应。该研究为基于 ChatGPT 的用户中心评估的对话式推荐系统提供了实用的设计指导。
May, 2024
该论文提出了一种新的检索到预测范例来解决个性化聊天机器人中 OOP 问题,并通过采用实际人物进行后验转换来进一步缓解训练和推理之间的差距。并通过 IT-ConvAI2 和 ConvAI2 的广泛实验表明,我们提出的模型在自动指标和人类评估方面都取得了可观的改进。
Aug, 2022
本文提出了基于 P^2 框架的机器人 P^2 Bot,该框架旨在显式地建立对话者间的理解模型。实验结果表明该框架在大型公共数据集 Persona-Chat 上取得了显著效果提升。
Apr, 2020
本研究探讨了大型语言模型(LLMs)从自由交互中推断五大人格特质的能力。结果表明,由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格,优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时,性能最高(平均 r=.443,范围 =[.245, .640]),其次是强调自然互动的条件(平均 r=.218,范围 =[.066, .373])。值得注意的是,在直接关注个性评估的条件下,用户体验并未降低,参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级,但仍然捕捉到一些人格特质的心理学意义信息(平均 r=.117,范围 =[-.004, .209])。初步分析表明,个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。
May, 2024
AI 的透明度和责任感的需求增加了,因为对 AI 决策背后的推理进行自然语言解释(NLE)对于澄清重要,但通过人的判断进行评估复杂且资源密集,由于主观性和对细粒度评分的需求。本研究探索了 ChatGPT 与人类评估之间的一致性,涵盖了二元、三元和 7-Likert 量表多个等级尺度。我们从三个 NLE 数据集中抽取了 300 个数据样本,并收集了 900 个人类注释,用于信息量和清晰度评分作为文本质量度量。我们还在不同主观性得分范围内进行了配对比较实验,其中基线来源于 8,346 个人类注释。我们的结果表明,在粗粒度尺度上,ChatGPT 与人类的一致性更好。配对比较和动态提示(即在提示中提供语义上相似的示例)提高了一致性。该研究推进了我们对大型语言模型的理解,以在不同配置中评估文本解释质量,为负责任的 AI 发展做出贡献。
Mar, 2024
本文研究借助简单描述包含社会人口和个性类型信息,大型语言模型(LLMs)在重建人类认知中基本性格特征方面的能力。通过利用 HEXACO 人格框架,我们的研究探讨了 LLMs 在从简单描述中恢复和预测潜在人格维度的一致性。实验证明在人格重建方面存在显著的一致性,但也观察到一些不一致性和偏见,例如在缺乏明确信息时默认为积极特质。此外,年龄和子女数量等社会人口因素也会影响恢复的人格维度。这些发现对于利用 LLMs 构建复杂的基于代理的模拟具有重要意义,并强调了对 LLMs 中健壮人格生成的进一步研究的需求。
Jun, 2024
本文介绍了利用大型语言模型进行对话推荐的研究,并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM,从而改善了现有的评估协议。在两个公共数据集上的实验表明,ChatGPT 展现出较大的优势,并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力,并为未来的研究提供一个更灵活、易于使用的评估框架。
May, 2023