以个性为驱动的生成智能体
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
本文通过用自我报告问卷(BFI)评估和语言分析等方法,在大型语言模型(LLMs)中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色,研究 LLM 角色生成的内容是否优点定制的特质,并对其可应用于人工智能会话的前景进行了展望。
May, 2023
该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
通过使用大型语言模型结合动态个性生成方法,本研究探索并增强了人类思考的模仿能力,特别关注个性方面,在对话数据集上的推进训练使得动态个性生成方法(DPG)在生成个性时具有比传统方法更强的能力,从而超越了基于提示的 GPT-4 模型。
Apr, 2024
大型语言模型(LLMs)可以用作代理来模拟人类行为,具备理解人类指令和生成高质量文本的强大能力。本研究旨在训练一个代理,拥有特定人物的个人资料、经历和情感状态,而不是使用有限的提示来指导 ChatGPT API。为了评估我们方法的有效性,我们建立了一个测试场,对训练的代理进行面试并评估其是否记忆了所扮演的角色和经历。实验结果呈现有趣的观察结果,有助于构建未来人类的模拟体。
Oct, 2023
本文研究借助简单描述包含社会人口和个性类型信息,大型语言模型(LLMs)在重建人类认知中基本性格特征方面的能力。通过利用 HEXACO 人格框架,我们的研究探讨了 LLMs 在从简单描述中恢复和预测潜在人格维度的一致性。实验证明在人格重建方面存在显著的一致性,但也观察到一些不一致性和偏见,例如在缺乏明确信息时默认为积极特质。此外,年龄和子女数量等社会人口因素也会影响恢复的人格维度。这些发现对于利用 LLMs 构建复杂的基于代理的模拟具有重要意义,并强调了对 LLMs 中健壮人格生成的进一步研究的需求。
Jun, 2024
利用大型语言模型(LLMs)如 ChatGPT 从用户的数字足迹中推断个体的心理特征,研究发现 GPT-3.5 和 GPT-4 可以在零样本学习情景下从用户的 Facebook 状态更新中推导出五大人格特征,但结果显示推断得分与自我报告的特征分数之间的平均相关性为 r = .29(范围 =[.22, .33]),并且推断的人格特征存在性别和年龄方面的偏差。
Sep, 2023
本研究探讨了大型语言模型(LLMs)从自由交互中推断五大人格特质的能力。结果表明,由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格,优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时,性能最高(平均 r=.443,范围 =[.245, .640]),其次是强调自然互动的条件(平均 r=.218,范围 =[.066, .373])。值得注意的是,在直接关注个性评估的条件下,用户体验并未降低,参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级,但仍然捕捉到一些人格特质的心理学意义信息(平均 r=.117,范围 =[-.004, .209])。初步分析表明,个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。
May, 2024
大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中,我们通过使用高质量小说中的人物分析数据构建了 LIFECHOICE 数据集,并进行了多项实验,研究了 LLMs 在以人物为驱动的决策中的能力。结果表明,目前的 LLMs 在此任务中显示出有希望的能力,但仍有很大的改进空间。因此,我们进一步提出了基于人物记忆检索的 CHARMAP 方法,通过该方法可以获得 6.01%的准确率提升。我们将公开提供我们的数据集和代码。
Apr, 2024