GPT-3 的人格测评:时间可靠性有限,但突显社交渴望的人格测试结果
通过对捷克民众自我评估数据的分析,本研究探讨了一个通用聊天机器人 ChatGPT 在从短文本中有效推测个性特质方面的能力,结果显示其在人格特质推测方面与人类评估者具有竞争力,并揭示了 ChatGPT 在所有人格维度上存在的 ' 积极偏差 ',同时探讨了提示内容对其准确度的影响,从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性,并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。
Dec, 2023
对 ChatGPT 进行了心理特征和文化价值的测量,发现其与真实人类存在差异,表现出文化偏见和刻板印象。未来的研究应加强技术监督和算法训练的透明性,促进跨文化交流和减少社会差异。
May, 2024
ChatGPT 使用零样本的思维链式引导在文本上展示了令人印象深刻的人格识别能力,而在识别人格时,还展示了对某些敏感人口属性(如性别和年龄)的不公平性。
Jul, 2023
本文对 GPT-3 的人格特征、价值观和自我报告的人口统计数据进行了心理评估,结果显示 GPT-3 在人格和价值观方面与人类样本的得分类似,我们提供了第一批 GPT-3 心理评估证据,并为未来将社会科学与语言模型放在更近距离提供了建议。
Sep, 2022
在本文中,我们通过提交 60 个提问并基于三项机器翻译评分标准(BLEU,METEOR 和 ROUGE)对 ChatGPT 的回答进行了分析,结果显示出与人类典型反应相比,ChatGPT 在回复和翻译方面的能力虽然显著,但仍有所欠缺。
Feb, 2023
在该研究中,我们使用 OpenAI 的 text-davinci-003 模型,即 GPT3.5,重复了 Many Labs 2 重复项目中的 14 项研究,其中我们的 GPT 样本在八项研究中复制了 37.5%的原始结果和 Many Labs 2 结果的 37.5%。然而,我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应,这引发了对未来 AI 领域可能存在思想多样性降低的担忧。
Feb, 2023
本文通过用自我报告问卷(BFI)评估和语言分析等方法,在大型语言模型(LLMs)中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色,研究 LLM 角色生成的内容是否优点定制的特质,并对其可应用于人工智能会话的前景进行了展望。
May, 2023
本文探讨了 GPT-3 在用户社交媒体帖子上对 Big 5 个性格特质的零样本估计能力,并发现其在粗分类上表现与现有的预训练模型相近,但在细粒度分类下表现不如常见类别基准,同时分析了 GPT-3 和预训练词汇模型表现较好和较差的领域,提出了改进 LNM 在人类级 NLP 任务上的建议。
Jun, 2023
本研究探讨了大型语言模型(LLMs)从自由交互中推断五大人格特质的能力。结果表明,由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格,优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时,性能最高(平均 r=.443,范围 =[.245, .640]),其次是强调自然互动的条件(平均 r=.218,范围 =[.066, .373])。值得注意的是,在直接关注个性评估的条件下,用户体验并未降低,参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级,但仍然捕捉到一些人格特质的心理学意义信息(平均 r=.117,范围 =[-.004, .209])。初步分析表明,个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。
May, 2024