GPT-3 对零样本人格估计的系统评估

ACLJun, 2023

GPT-3 对零样本人格估计的系统评估

Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation

Adithya V Ganesan, Yash Kumar Lal, August Håkan Nilsson, H. Andrew Schwartz

TL;DR本文探讨了 GPT-3 在用户社交媒体帖子上对 Big 5 个性格特质的零样本估计能力，并发现其在粗分类上表现与现有的预训练模型相近，但在细粒度分类下表现不如常见类别基准，同时分析了 GPT-3 和预训练词汇模型表现较好和较差的领域，提出了改进 LNM 在人类级 NLP 任务上的建议。

Abstract

Very large language models (LLMs) perform extremely well on a spectrum of nlp tasks in a zero-shot setting. However, little is known about their performance on human-level →

language models nlp psychological concepts big 5 personalities gpt-3

发现论文，激发创造

大型语言模型能够推断社交媒体用户的心理特质

利用大型语言模型（LLMs）如 ChatGPT 从用户的数字足迹中推断个体的心理特征，研究发现 GPT-3.5 和 GPT-4 可以在零样本学习情景下从用户的 Facebook 状态更新中推导出五大人格特征，但结果显示推断得分与自我报告的特征分数之间的平均相关性为 r = .29（范围 =[.22, .33]），并且推断的人格特征存在性别和年龄方面的偏差。

Sep, 2023

使用 GPT-3 进行零 - shot 意见摘要

本文介绍了如何使用 GPT-3 对大量的用户评论进行零样本情感总结，探讨了一些通用方法并对不同方法的信念忠实度、准确性和通用性等多个角度进行评估。

Nov, 2022

PersonaLLM：探究 GPT-3.5 表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色，研究 LLM 角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023

ChatGPT 是否是一个良好的个性识别器？初步研究

ChatGPT 使用零样本的思维链式引导在文本上展示了令人印象深刻的人格识别能力，而在识别人格时，还展示了对某些敏感人口属性（如性别和年龄）的不公平性。

Jul, 2023

大型语言模型能从用户的自由互动中推断出个性

本研究探讨了大型语言模型（LLMs）从自由交互中推断五大人格特质的能力。结果表明，由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格，优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时，性能最高（平均 r=.443，范围 =[.245, .640]），其次是强调自然互动的条件（平均 r=.218，范围 =[.066, .373]）。值得注意的是，在直接关注个性评估的条件下，用户体验并未降低，参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级，但仍然捕捉到一些人格特质的心理学意义信息（平均 r=.117，范围 =[-.004, .209]）。初步分析表明，个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。

May, 2024

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

GPT-3 是心理变态吗？从心理学角度评估大型语言模型

本研究通过心理测试和幸福感测试，从心理角度系统评估了多种大型语言模型，同时探究了更多训练数据 fine-tuning 对心理健康的影响，并通过 BFI 调整改善了 FLAN-T5 模型的心理表现。研究呼吁社区在全面评估和改善大型语言模型安全性方面进行更多努力。

Dec, 2022

GPT-3 是谁？个性、价值观和人口统计的探索

本文对 GPT-3 的人格特征、价值观和自我报告的人口统计数据进行了心理评估，结果显示 GPT-3 在人格和价值观方面与人类样本的得分类似，我们提供了第一批 GPT-3 心理评估证据，并为未来将社会科学与语言模型放在更近距离提供了建议。

Sep, 2022

ChatGPT 模型在生物医学任务中的零样本性能探究

本文评估了商业 Large Language Models (LLMs) GPT-3.5-Turbo 和 GPT-4 在 2023 BioASQ 挑战的任务中的表现，其中 0-shot learning 和相关段落达到了竞争水平。

Jun, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020