GPT-3 对零样本人格估计的系统评估
利用大型语言模型(LLMs)如 ChatGPT 从用户的数字足迹中推断个体的心理特征,研究发现 GPT-3.5 和 GPT-4 可以在零样本学习情景下从用户的 Facebook 状态更新中推导出五大人格特征,但结果显示推断得分与自我报告的特征分数之间的平均相关性为 r = .29(范围 =[.22, .33]),并且推断的人格特征存在性别和年龄方面的偏差。
Sep, 2023
本文介绍了如何使用 GPT-3 对大量的用户评论进行零样本情感总结,探讨了一些通用方法并对不同方法的信念忠实度、准确性和通用性等多个角度进行评估。
Nov, 2022
本文通过用自我报告问卷(BFI)评估和语言分析等方法,在大型语言模型(LLMs)中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色,研究 LLM 角色生成的内容是否优点定制的特质,并对其可应用于人工智能会话的前景进行了展望。
May, 2023
ChatGPT 使用零样本的思维链式引导在文本上展示了令人印象深刻的人格识别能力,而在识别人格时,还展示了对某些敏感人口属性(如性别和年龄)的不公平性。
Jul, 2023
本研究探讨了大型语言模型(LLMs)从自由交互中推断五大人格特质的能力。结果表明,由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格,优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时,性能最高(平均 r=.443,范围 =[.245, .640]),其次是强调自然互动的条件(平均 r=.218,范围 =[.066, .373])。值得注意的是,在直接关注个性评估的条件下,用户体验并未降低,参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级,但仍然捕捉到一些人格特质的心理学意义信息(平均 r=.117,范围 =[-.004, .209])。初步分析表明,个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。
May, 2024
本研究通过心理测试和幸福感测试,从心理角度系统评估了多种大型语言模型,同时探究了更多训练数据 fine-tuning 对心理健康的影响,并通过 BFI 调整改善了 FLAN-T5 模型的心理表现。研究呼吁社区在全面评估和改善大型语言模型安全性方面进行更多努力。
Dec, 2022
本文对 GPT-3 的人格特征、价值观和自我报告的人口统计数据进行了心理评估,结果显示 GPT-3 在人格和价值观方面与人类样本的得分类似,我们提供了第一批 GPT-3 心理评估证据,并为未来将社会科学与语言模型放在更近距离提供了建议。
Sep, 2022
本文评估了商业 Large Language Models (LLMs) GPT-3.5-Turbo 和 GPT-4 在 2023 BioASQ 挑战的任务中的表现,其中 0-shot learning 和相关段落达到了竞争水平。
Jun, 2023
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020