机器人个性的美德：个性与LLM安全的关系

Jul, 2024

机器人个性的美德：个性与LLM安全的关系

The Better Angels of Machine Personality: How Personality Relates to LLM Safety

Jie Zhang, Dongrui Liu, Chen Qian, Ziyue Gan, Yong Liu...

TL;DR人格心理学家分析了人类社会中人格与安全行为之间的关系。本研究旨在发现大型语言模型（LLMs）的个性特征与其安全能力之间的紧密关联，并通过MBTI-M规模发现了毒性、隐私和公平性等个性特征。此外，研究还发现不同个性特征的LLMs对越狱有不同的易感性。通过从ISTJ到ISTP的个性诱导，隐私和公平性能相对提高了约43%和10%。这项研究开创性地从个性角度探讨了LLM安全性，为LLM安全性增强提供了新的见解。

Abstract

personality psychologists have analyzed the relationship between personality and safety behaviors in human society. Although Large Language Models (LLMs) demonstrate →

发现论文，激发创造

PersonaLLM：探究GPT-3.5表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了320种LLM角色，研究LLM角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023

大型语言模型是否具有人格特质？：自我评估测试在衡量LLMs人格方面的适用性

该研究探讨了如何对大型语言模型进行人格测试，并提出了使用自我评估测试的不足之处，主要体现在测试结果不可靠，无法客观准确地测量机器的人格特点，原因是存在内在的偏见和不一致性。因此，需要开发更科学的方法来对大型语言模型的人格特点进行准确可靠的评估。

May, 2023

大型语言模型的个性——基于 ChatGPT (ENFJ) 和 Bard (ISTJ) 的实证研究

本研究使用心理学框架来考察Large Language Models的行为模式，通过评估ChatGPT的人格类型及其在其他七种语言和其他四种模型上的跨语言影响，研究指出在指令或情境提示下，ChatGPT始终保持其ENFJ人格，揭示了LLMs的个性化特点，为未来进一步研究提供了启示。

May, 2023

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用LLM。

Jul, 2023

LLM是否具有个性？将MBTI测试应用于大型语言模型的优秀评估

本文旨在探究利用人格评估工具MBTI对大型语言模型进行评估的可行性，并通过广泛实验探索不同模型的人格类型、通过提示工程改变人格类型的可能性以及训练数据集对模型人格的影响。尽管MBTI不是一个严谨的评估工具，但它仍然能够反映LLMs与人类人格之间的相似程度，并有潜力作为一个粗略的指标。

Jul, 2023

LLMs模拟五大人格特质：进一步证据

对Llama2、GPT4和Mixtral等大型语言模型对五大人格特质进行仿真的实证研究，分析了这些模型所模拟的人格特质及其稳定性，这有助于更深入地了解LLMs模拟人格特质的能力以及对个性化人机交互的影响。

Jan, 2024

大规模语言模型中引发大五人格特质的文本分析：基于分类器驱动方法

借助不同输入提示，使用多个参数大小的多个大型语言模型对它们的输出进行了评估，结果显示，大型语言模型普遍表现出高度的开放性和低度的外向性，且参数越多越倾向于开放性和责任心，并且在不同数据集上对细调模型产生了微小的调整

Feb, 2024

利用外部评估在大型语言模型中识别多个人格

通过使用外部评估方法，本文调查了大型语言模型（LLMs）的个性，并发现在不同情境下生成帖子和评论时，LLMs的个性有显著差异，与人类表现出一致的个性特征形成了对比，从而引发对LLMs个性定义和测量的重新评估。

Feb, 2024

LLM人格特质测试套件：LLM是否具有独特且一致的人格特质？

通过TRAIT工具，基于Big Five Inventory (BFI)和Short Dark Triad (SD-3)问卷以及ATOMIC10X知识图谱，对大型语言模型进行个性评估，发现LLMs具有独特而一致的个性，受其训练数据的影响，并且当前的提示技术在引出某些特征(如高心理变态和低责任感)方面的效果有限，需要进一步研究。

Jun, 2024

自评、展示和认可：大型自然语言模型中的人格评价综述

本文对大型语言模型中的个性进行了综述和分类，主要涵盖自我评估、展示和认知等问题，并提供了详尽的分析和解决方案比较，总结了研究结果和挑战，并展望了未来的研究方向和应用场景。

Jun, 2024