大型语言模型中的人格特质
借助不同输入提示,使用多个参数大小的多个大型语言模型对它们的输出进行了评估,结果显示,大型语言模型普遍表现出高度的开放性和低度的外向性,且参数越多越倾向于开放性和责任心,并且在不同数据集上对细调模型产生了微小的调整
Feb, 2024
对 Llama2、GPT4 和 Mixtral 等大型语言模型对五大人格特质进行仿真的实证研究,分析了这些模型所模拟的人格特质及其稳定性,这有助于更深入地了解 LLMs 模拟人格特质的能力以及对个性化人机交互的影响。
Jan, 2024
本研究探讨了大型语言模型(LLMs)从自由交互中推断五大人格特质的能力。结果表明,由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格,优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时,性能最高(平均 r=.443,范围 =[.245, .640]),其次是强调自然互动的条件(平均 r=.218,范围 =[.066, .373])。值得注意的是,在直接关注个性评估的条件下,用户体验并未降低,参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级,但仍然捕捉到一些人格特质的心理学意义信息(平均 r=.117,范围 =[-.004, .209])。初步分析表明,个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。
May, 2024
大型语言模型(LLMs)的人类化行为在文本交互中愈发明显,尝试使用原本为人类设计的测试来评估模型的各种特性已变得流行起来。然而,需要仔细调整这些测试,以确保测试结果在人类亚群中的有效性。因此,不清楚不同测试的有效性能够推广到 LLMs 的程度。本研究提供证据表明,LLMs 对个性测试的反应与典型人类反应存在系统偏差,意味着这些结果不能像人类测试结果一样进行解释。具体来说,LLMs 经常同时肯定地回答出了反向编码项目(例如,“我是内向的” 与 “我是外向的”)。此外,设计用于 “引导” LLMs 模拟特定的个性类型的不同提示的变化并不遵循人类样本中五个独立个性因素的明确分离。考虑到这些结果,我们认为在对类似 LLMs “个性” 这样定义模糊的概念进行强有力的结论之前,应更加关注对 LLMs 的测试有效性。
Nov, 2023
本文对大型语言模型中的个性进行了综述和分类,主要涵盖自我评估、展示和认知等问题,并提供了详尽的分析和解决方案比较,总结了研究结果和挑战,并展望了未来的研究方向和应用场景。
Jun, 2024
该研究探讨了如何对大型语言模型进行人格测试,并提出了使用自我评估测试的不足之处,主要体现在测试结果不可靠,无法客观准确地测量机器的人格特点,原因是存在内在的偏见和不一致性。因此,需要开发更科学的方法来对大型语言模型的人格特点进行准确可靠的评估。
May, 2023
本文利用大型语言模型(LLM)通过个性化对话生成,基于个人特点和人格特质创建了一个合成对话数据集,从而证明了个性化对话模型和与 PersonaChat 相比的表现优势。
Jan, 2024
通过使用外部评估方法,本文调查了大型语言模型(LLMs)的个性,并发现在不同情境下生成帖子和评论时,LLMs 的个性有显著差异,与人类表现出一致的个性特征形成了对比,从而引发对 LLMs 个性定义和测量的重新评估。
Feb, 2024
研究表明,大规模语言模型虽然可以输出流畅的文本,但它们也捕捉到人类偏见。本文研究了面向开放式文本生成的几种大规模语言模型的人格特征和训练集,使用问卷设计了人格评估,并用零 - shot 分类器将文本回答分类到可量化的特征中,研究了可以改变这些人格特征的方法。
Apr, 2022
评估三种主要的大型语言模型(Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash)在科学摘要文本生成任务中的表现,发现尽管这些模型的生成文本通常与人类创作的内容非常相似,但在风格上存在显著的性别偏见,这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。
Jun, 2024