理解人们如何评价他们的对话

Jun, 2022

Understanding How People Rate Their Conversations

Alexandros Papangelis, Nicole Chartier, Pankaj Rajan, Julia Hirschberg, Dilek Hakkani-Tur

TL;DR该研究旨在探讨用户评分在口语对话系统中的作用，特别关注用户的人格特质如宜人性和外向性对于交互评分的影响，并设计和验证了一个虚构故事，以此来调查和诱发这些人格特质。结果表明宜人性与交互评分有着显著的相关性，而选择听故事的用户相对来说更可能提供更高的评分。

Abstract

user ratings play a significant role in spoken dialogue systems. Typically, such ratings tend to be averaged across all users and then utilized as feedback to improve the system or personalize its behavior. While

user ratings spoken dialogue systems personality agreeableness extraversion

发现论文，激发创造

我的行动胜过你的言语：当用户行为预测他们对代理属性的信念

本文通过行为科学研究社会互动中的一种现象，发现用户可能会在代理人评估中使用无关信息。作者的分析表明需要改进模型以考虑此类偏见，同时代理人也可以通过相应机制来检测和纠正用户的这种偏见。

Jan, 2023

我们都是个体：机器人个性和人类特质在可信互动中的角色

通过定量和定性研究，本文探讨了以个体人类特质为依据对机器人个性的重要性，并证明通过声音和语言特征可以准确地描绘机器人的外向性和内向性。此外，通过收集对不同机器人个性的喜好和信任评分，我们得出结论，无论被测试者个人特质如何，人们更喜欢和信任外向型机器人，对 Robo-Barista（机器咖啡师）而言，这一点尤其如此。同时，我们发现个体对机器人的态度和倾向对 Robo-Baristas 的信任有影响，因此在设计人机交互研究时，除了考虑机器人的个性、角色和交互环境外，个体态度也是重要的考虑因素。

Jul, 2023

自然语言生成对话服务的聊天体验的预测因素是什么？

通过使用 PLS-SEM 方法，本研究提出了一个基于自然语言生成的对话系统的聊天体验预测模型，该模型研究了包括生成的提示，对话中的连贯性、情感和相似性以及用户感知的对话代理的友好度在内的各种因素，研究的结果表明，用户友好度和对话的连贯性、情感和相似性是用户聊天体验的积极预测因素，同时，研究发现用户可能更喜欢具有外向、开放性、责任心、宜人性和非神经质特征的对话代理。

Apr, 2023

对于会话代理和聊天机器人中的个性、角色和简介的调查

综述了神经会话代理（也称为聊天机器人）中的个性特征，包括定义了个性、角色和档案，解释了在会话代理中已经使用的所有个性方案，并列出了使用该方案的模型；描述了在最近的会话代理个性研究中开发的 21 个数据集；定义了在会话代理中体现个性的方法，并回顾了最近使用这些方法的模型；调查了关于会话代理、个性和相关主题的一些相关综述；最后得出结论并确定了这一重要新兴领域的一些研究挑战。

Dec, 2023

社交对话的神经响应排名：一种数据高效的方法

本文提出了使用神经排序器从未标记的数据中有效地训练社交对话系统的方法，并展示了使用该方法通过优化长度作为目标的排序器在性能上优于优化用户评级的排序器，从而可简化未来社交对话代理的数据收集。

Nov, 2018

评估个性对游戏通信中情感状态的影响

研究了个体差异在团队合作的虚拟现实游戏中表达感情倾向方面的影响，通过多重线性回归确定了个性变量和表达情感之间的合理相关性，为情感计算和游戏用户研究提供了有价值的信息。

Sep, 2023

大型语言模型能从用户的自由互动中推断出个性

本研究探讨了大型语言模型（LLMs）从自由交互中推断五大人格特质的能力。结果表明，由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格，优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时，性能最高（平均 r=.443，范围 =[.245, .640]），其次是强调自然互动的条件（平均 r=.218，范围 =[.066, .373]）。值得注意的是，在直接关注个性评估的条件下，用户体验并未降低，参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级，但仍然捕捉到一些人格特质的心理学意义信息（平均 r=.117，范围 =[-.004, .209]）。初步分析表明，个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。

May, 2024

互动中的 LLM Agents：大型语言模型互动群体中个性一致性和语言对齐的测量

我们在 GPT-3.5 上通过提示方式进行个性化训练，创建了一组双组群体的 LLM 代理，然后进行个性测试并将代理提交到协作写作任务中，发现不同个性表现出不同程度的人格一致性和语言对话伙伴的语言协调性。我们的研究旨在为更好地理解 LLMs 之间基于对话的交互奠定基础，并强调了在交互环境中塑造稳健且更具人性的 LLM 个性的新方法的需求。

Feb, 2024

揭示引人入胜对话的秘密：使用户沉迷角色扮演对话代理的因素

在该研究中，通过分析真实用户与数千个角色之间的互动，系统地研究了影响用户留存率的多个因素，发现对话机器人扮演角色的程度对留存率的影响有限，而其每次发言的长度显著影响留存率，从而为角色扮演模型的用户参与关键方面提供了重要的见解。

Feb, 2024

人类评估中的真实性差距

本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

May, 2022