LLM 认知判断与人类不同
本研究通过使用心理学方法,展示了大型语言模型(LLMs),尤其是 GPT-3,表现出类似于人类直觉的行为和认知错误,而具有更高认知能力的 LLMs,特别是 ChatGPT 和 GPT-4,学会避免这些错误,并表现出超理性的方式;此外,我们还探究了直觉决策倾向的稳定程度。
Jun, 2023
通过对 GPT-3 模型的测试,我们发现大型语言模型(LLMs)可能会出现几种人类认知效应,包括提前启动效应、距离效应、SNARC 效应和尺寸一致性效应,但缺乏锚定效应。我们描述了我们的方法学,并讨论了 GPT-3 出现这些效应的可能原因以及它们是模拟还是重新创造的问题。
Aug, 2023
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断,并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023
通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力,研究发现 ChatGPT 和人类的表现有惊人的一致性,尽管它们的内部机制可能存在显著差异,这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。
Mar, 2024
研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象,并发现 ChatGPT 在这些效应中表现出与人类相似的行为。
May, 2023
本研究对语言模型(LLMs)的理解能力进行了比较和对照,发现人类分析师和 LLMs 的分类和推理能力存在显著差异,但二者合作可能会产生协同效应,从而丰富了定性研究。
Jun, 2023
本文借助认知心理学的工具对最近的大型语言模型 GPT-3 进行了研究评估其在任务决策、信息搜索、思考以及因果推理方面的能力,结果显示 GPT-3 表现出的许多行为令人印象深刻,能够像人类一样解决任务,但也发现了其局限性,如对于因果推理任务失败,这些结果丰富了我们对当前大型语言模型的理解,并为进一步利用认知心理学工具研究越来越能干和难以理解的人工智能代理铺平了道路。
Jun, 2022
通过对大型语言模型(LLM)和人类的推理进行比较,本研究使用传统的认知心理学工具调查和比较它们的表现,结果显示大部分模型呈现了类似于人类具有错误倾向、启发式推理的推理错误,然而,深入比较发现最近的 LLM 版本在与人类推理的区别方面存在重要差异且模型的局限性在新版 LLM 中几乎完全消失,此外,我们还表明,虽然有可能设计策略以提高模型的性能,但人类和机器对相同的提示方案的响应并不相同,最后我们讨论了比较人类和机器行为在人工智能和认知心理学领域中的认识论意义和挑战。
Sep, 2023
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
本研究通过基于对话的任务评估 Large Language Models(LLMs)和人类主体在解释语用学方面的能力,结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度,同时在人类写作样本的预测试中也表现出了准确性,进一步的分析也揭示了 LLMs 的显著和持续的发展,为通信中心领域 AI 模型的发展和应用提供了重要的启示。
Dec, 2023