评估大型语言模型的性质：对人类中心主义的警告

Sep, 2023

评估大型语言模型的性质：对人类中心主义的警告

Assessing the nature of large language models: A caution against anthropocentrism

Ann Speed

TL;DRGPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Abstract

generative ai models garnered a large amount of public attention and speculation with the release of OpenAIs chatbot, ChatGPT. At least two opinion camps exist: one excited about possibilities these models offer for fundamental changes to human tasks, and another highly concerned about

generative ai models gpt3.5 cognitive measures personality measures mental health

发现论文，激发创造

ChatGPT 的高维心理特征和文化偏见

对 ChatGPT 进行了心理特征和文化价值的测量，发现其与真实人类存在差异，表现出文化偏见和刻板印象。未来的研究应加强技术监督和算法训练的透明性，促进跨文化交流和减少社会差异。

May, 2024

ChatGPT 在情感计算任务上的广泛评估

基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能，发现它们在涉及情感、情绪和毒性等问题上表现出色，但在涉及隐性信号的问题上表现较差，如参与度测量和主观性检测。

Aug, 2023

运用认知心理学理解 GPT-3

本文借助认知心理学的工具对最近的大型语言模型 GPT-3 进行了研究评估其在任务决策、信息搜索、思考以及因果推理方面的能力，结果显示 GPT-3 表现出的许多行为令人印象深刻，能够像人类一样解决任务，但也发现了其局限性，如对于因果推理任务失败，这些结果丰富了我们对当前大型语言模型的理解，并为进一步利用认知心理学工具研究越来越能干和难以理解的人工智能代理铺平了道路。

Jun, 2022

ChatGPT 在语言使用上是否与人类相似？

通过 12 个预注册的实验，我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理，但是他们在一些方面与人类处理方式存在差异，并且可能通过 Transformer 架构来解释这些差异。

Mar, 2023

ChatGPT 是否可以识别您的身份？

通过对捷克民众自我评估数据的分析，本研究探讨了一个通用聊天机器人 ChatGPT 在从短文本中有效推测个性特质方面的能力，结果显示其在人格特质推测方面与人类评估者具有竞争力，并揭示了 ChatGPT 在所有人格维度上存在的 ' 积极偏差 '，同时探讨了提示内容对其准确度的影响，从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性，并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。

Dec, 2023

GPT-3 是谁？个性、价值观和人口统计的探索

本文对 GPT-3 的人格特征、价值观和自我报告的人口统计数据进行了心理评估，结果显示 GPT-3 在人格和价值观方面与人类样本的得分类似，我们提供了第一批 GPT-3 心理评估证据，并为未来将社会科学与语言模型放在更近距离提供了建议。

Sep, 2022

测试 GPT-3 的创造力（替代用途）

我们评估了 Open AI 的生成式自然语言模型 GPT-3 在 Guilford 的替代用途测试中的创造力，结果显示人类目前在创造性输出方面表现优于 GPT-3，但我们相信这只是时间问题。

Jun, 2022

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

机器直觉：揭示 GPT-3.5 中类似人类直觉的决策制定

本研究揭示了大型语言模型 (LLMs) 在某些情况下表现出具有人类直觉的行为，包括许多认知错误，并且通过使用 GPT-3.5 等最新技术的模型及进行人类直觉决策的试探研究证明了这一点，并探究了几种方法来测试 GPT-3.5 的倾向于类似直觉的决策及其机器行为等方面，以揭示出这些模型在认知科学方面的新兴特征和调整预期的潜力。

Dec, 2022

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023