GPT-3 的人格测评：时间可靠性有限，但突显社交渴望的人格测试结果

Jun, 2023

GPT-3 的人格测评：时间可靠性有限，但突显社交渴望的人格测试结果

Personality testing of GPT-3: Limited temporal reliability, but highlighted social desirability of GPT-3's personality instruments results

PDF

Bojana Bodroza, Bojana M. Dinic, Ljubisa Bojic

TL;DR研究 GPT-3 chatbot 的潜在应用和局限性，检验其人格问卷的时间可靠性及其人格特质，并发现其在沟通领域表现出亲社会人格特质，但其应答的基础是否由自觉的自我反思或预先确定的算法驱动仍不确定。

Abstract

To assess the potential applications and limitations of chatbot gpt-3 Davinci-003, this study explored the temporal reliability of personality questionnaires applied to the chatbot and its →

chatbots gpt-3 personality questionnaires temporal reliability personality profile

发现论文，激发创造

ChatGPT 是否可以识别您的身份？

通过对捷克民众自我评估数据的分析，本研究探讨了一个通用聊天机器人 ChatGPT 在从短文本中有效推测个性特质方面的能力，结果显示其在人格特质推测方面与人类评估者具有竞争力，并揭示了 ChatGPT 在所有人格维度上存在的 ' 积极偏差 '，同时探讨了提示内容对其准确度的影响，从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性，并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。

Dec, 2023

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

ChatGPT 的高维心理特征和文化偏见

对 ChatGPT 进行了心理特征和文化价值的测量，发现其与真实人类存在差异，表现出文化偏见和刻板印象。未来的研究应加强技术监督和算法训练的透明性，促进跨文化交流和减少社会差异。

May, 2024

ChatGPT 是否是一个良好的个性识别器？初步研究

ChatGPT 使用零样本的思维链式引导在文本上展示了令人印象深刻的人格识别能力，而在识别人格时，还展示了对某些敏感人口属性（如性别和年龄）的不公平性。

Jul, 2023

GPT-3 是谁？个性、价值观和人口统计的探索

本文对 GPT-3 的人格特征、价值观和自我报告的人口统计数据进行了心理评估，结果显示 GPT-3 在人格和价值观方面与人类样本的得分类似，我们提供了第一批 GPT-3 心理评估证据，并为未来将社会科学与语言模型放在更近距离提供了建议。

Sep, 2022

聊天机器人对话回应的评分

在本文中，我们通过提交 60 个提问并基于三项机器翻译评分标准（BLEU，METEOR 和 ROUGE）对 ChatGPT 的回答进行了分析，结果显示出与人类典型反应相比，ChatGPT 在回复和翻译方面的能力虽然显著，但仍有所欠缺。

Feb, 2023

人工智能心理学的 “正确答案

在该研究中，我们使用 OpenAI 的 text-davinci-003 模型，即 GPT3.5，重复了 Many Labs 2 重复项目中的 14 项研究，其中我们的 GPT 样本在八项研究中复制了 37.5％的原始结果和 Many Labs 2 结果的 37.5％。然而，我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应，这引发了对未来 AI 领域可能存在思想多样性降低的担忧。

Feb, 2023

PersonaLLM：探究 GPT-3.5 表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色，研究 LLM 角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023

GPT-3 对零样本人格估计的系统评估

本文探讨了 GPT-3 在用户社交媒体帖子上对 Big 5 个性格特质的零样本估计能力，并发现其在粗分类上表现与现有的预训练模型相近，但在细粒度分类下表现不如常见类别基准，同时分析了 GPT-3 和预训练词汇模型表现较好和较差的领域，提出了改进 LNM 在人类级 NLP 任务上的建议。

Jun, 2023

大型语言模型能从用户的自由互动中推断出个性

本研究探讨了大型语言模型（LLMs）从自由交互中推断五大人格特质的能力。结果表明，由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格，优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时，性能最高（平均 r=.443，范围 =[.245, .640]），其次是强调自然互动的条件（平均 r=.218，范围 =[.066, .373]）。值得注意的是，在直接关注个性评估的条件下，用户体验并未降低，参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级，但仍然捕捉到一些人格特质的心理学意义信息（平均 r=.117，范围 =[-.004, .209]）。初步分析表明，个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。

May, 2024