评估大型语言模型的性质:对人类中心主义的警告
对 ChatGPT 进行了心理特征和文化价值的测量,发现其与真实人类存在差异,表现出文化偏见和刻板印象。未来的研究应加强技术监督和算法训练的透明性,促进跨文化交流和减少社会差异。
May, 2024
基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能,发现它们在涉及情感、情绪和毒性等问题上表现出色,但在涉及隐性信号的问题上表现较差,如参与度测量和主观性检测。
Aug, 2023
本文借助认知心理学的工具对最近的大型语言模型 GPT-3 进行了研究评估其在任务决策、信息搜索、思考以及因果推理方面的能力,结果显示 GPT-3 表现出的许多行为令人印象深刻,能够像人类一样解决任务,但也发现了其局限性,如对于因果推理任务失败,这些结果丰富了我们对当前大型语言模型的理解,并为进一步利用认知心理学工具研究越来越能干和难以理解的人工智能代理铺平了道路。
Jun, 2022
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
通过对捷克民众自我评估数据的分析,本研究探讨了一个通用聊天机器人 ChatGPT 在从短文本中有效推测个性特质方面的能力,结果显示其在人格特质推测方面与人类评估者具有竞争力,并揭示了 ChatGPT 在所有人格维度上存在的 ' 积极偏差 ',同时探讨了提示内容对其准确度的影响,从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性,并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。
Dec, 2023
本文对 GPT-3 的人格特征、价值观和自我报告的人口统计数据进行了心理评估,结果显示 GPT-3 在人格和价值观方面与人类样本的得分类似,我们提供了第一批 GPT-3 心理评估证据,并为未来将社会科学与语言模型放在更近距离提供了建议。
Sep, 2022
我们评估了 Open AI 的生成式自然语言模型 GPT-3 在 Guilford 的替代用途测试中的创造力,结果显示人类目前在创造性输出方面表现优于 GPT-3,但我们相信这只是时间问题。
Jun, 2022
本文报道了 OpenAI 发展的最新模型 GPT-4,证明其不仅能够掌握语言,而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务,表现接近于甚至超过人类的水平,代表了一种新的群体智能的语言模型,并可能被视为人工通用智能(AGI)系统的早期、但尚不完整的版本。同时,本文还探讨了 GPT-4 的局限性,指出其可能需要超越下一个预测的新范式,为实现更深入和全面的 AGI 版本的发展面临的挑战,以及该技术飞跃的社会影响和未来研究方向的反思。
Mar, 2023
本研究揭示了大型语言模型 (LLMs) 在某些情况下表现出具有人类直觉的行为,包括许多认知错误,并且通过使用 GPT-3.5 等最新技术的模型及进行人类直觉决策的试探研究证明了这一点,并探究了几种方法来测试 GPT-3.5 的倾向于类似直觉的决策及其机器行为等方面,以揭示出这些模型在认知科学方面的新兴特征和调整预期的潜力。
Dec, 2022
本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4),并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估,并使用基于专家的注释进行评估。结果表明,GPT-4 明显优于 ChatGPT,并在某些场景下接近人类导师的表现,但在某些情况下仍表现不佳。
Jun, 2023