在线与离线:第一方与第三方对社交聊天机器人的评估比较研究
本文针对对话系统中的评估协议不统一的问题,综合研究了人工评估和自动评估方法,建议建立更加健壮和统一的评估协议,并对目前使用的自动、静态和交互式评估方法进行分析,最终通过与 Alexa Prize 2020 中的系统-用户对话数据进行比较,提出最有效的评估维度。
Jun, 2020
本文介绍了一种名为“Spot The Bot”的聊天机器人评估框架,该框架使用“生存分析”作为度量标准,并通过与其他聊天机器人的比较,评估其在模拟人类会话行为方面的能力,以此取代传统基于人工评估的方式。
Oct, 2020
通过两项研究,本文阐述了当前的Open-domain chatbots的会话范围的局限性,建议使用“small talk”而非“open-domain”来描述目前的聊天机器人,同时提出需要改进评估方法以测试聊天机器人与其他语篇的对话。
Nov, 2022
提出了一种利用GPT模型进行对话系统评估的新框架,通过对模型进行特定条件训练来生成评估指标,采用少量的演示和指导进行提示,可以在自动化评估过程中取得与人类评价高度相关的结果。
Apr, 2023
本研究针对评估社交情境对话机器人的挑战性任务,提出了一种依赖于多模态用户行为的新型客观评估方法,主要关注评估机器人的人类化程度作为主要评估指标,通过观察用户行为间接评估机器人的人类化程度,提高了客观性和可重复性,并且通过创建一个带有人类化程度得分的标注数据集,运用在一个专注听力对话语料中找到的用户行为进行了相关性分析,证明了我们提出的基于行为的评估方法的可行性。
Aug, 2023
本研究分析了4个不同的评价者组对4个先进的对话系统进行评估的影响,结果表明在Likert评估中评价者组的选择对结果影响较小,但在Pairwise评估中存在显著差异,同时也发现了与对话机器人专业水平相关的评价者不一致问题,并指出在某些对话指标中评价者的客观性是有益的。
Sep, 2023
研究探讨人类和LLM生成的对话之间的语言差异,并使用ChatGPT-3.5生成的19.5K对话作为EmpathicDialogues数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在118个语言类别上比较ChatGPT生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但ChatGPT在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了LLM“更接近人类”的最新发现。然而,在正面或负面情感方面,ChatGPT和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的ChatGPT生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的AI研究。我们的研究结果增加了对ChatGPT的语言能力的理解,并为区分人类和LLM生成的文本的持续努力提供了信息,这对于检测由AI生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
通过分析ChatGPT在不同设定下的交互行为,我们深入研究了该模型在自然对话和角色扮演对话环境中的行为。我们引入了一个新的人工智能和人类对话的数据集,注释了用户动机和模型自然度,从而探究了人类如何与对话型人工智能模型进行交互以及人工智能模型的自然度。我们的研究突出了用户与ChatGPT进行交互时的动机多样性和人工智能模型的自然度差异,不仅展示了人与人工智能之间自然对话的微妙动态,也为提高人工智能与人类沟通的效果提供了新的途径。
Mar, 2024
本研究解决了对话系统评估效率与准确性缺乏的方法问题,通过比较人类与AI在多种对话场景下的评估表现,揭示了GPT模型与人类判断的紧密一致性。研究表明,尽管GPT-4o在保持事实准确性和常识推理上表现良好,但在减少冗余和自我矛盾方面仍需改进,为未来更精准的对话评估方法奠定基础。
Sep, 2024
本研究解决了对话系统和聊天机器人在日常互动中的评估效率和准确性不足的问题。通过对人类和AI在多种对话场景下的评估性能进行比较,揭示了GPT模型与人类判断的一致性,尤其是在保持事实准确性和常识推理方面的强大表现。研究结果为提高对话评估方法和促进更人性化的AI沟通工具的发展提供了重要见解。
Sep, 2024