大型语言模型是否表现出类似于人类的决策启发式?以 GPT-3.5 为例的案例研究
AI 系统需要理解我们的决策方式以便与人类有效沟通,然而人类的决策并不总是理性的,因此大型语言模型(LLMs)中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的,LLMs 在日常互动中呈现出了人类行为的可信代理。然而,通过将 LLM 的行为和预测与大量人类决策的数据集进行比较,我们发现情况实际上并非如此:在模拟和预测人类选择时,一套尖端的 LLMs(GPT-4o 和 4-Turbo,Llama-3-8B 和 70B,Claude 3 Opus)假设人们比实际更理性。具体而言,这些模型偏离了人类行为,更接近于经典的理性选择模型 - 预期值理论。有趣的是,人们在解释他人行为时也倾向于假设他人是理性的。因此,当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时,我们发现这些推理之间高度相关。因此,LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致,而不是与人们实际行动相一致。
Jun, 2024
本研究通过使用心理学方法,展示了大型语言模型(LLMs),尤其是 GPT-3,表现出类似于人类直觉的行为和认知错误,而具有更高认知能力的 LLMs,特别是 ChatGPT 和 GPT-4,学会避免这些错误,并表现出超理性的方式;此外,我们还探究了直觉决策倾向的稳定程度。
Jun, 2023
近期,大型语言模型(LLMs),如 GPT-4,在自然语言处理方面取得了显著进展并接近人工通用智能。然而,本研究对 GPT-4 和其他 LLMs 进行评估,评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现,无论是什么类型的陈述和提示技术,LLMs 与人类之间存在显著的陈述一致性。然而,LLMs 系统地高估了无意义陈述的深度,除了 Tk-instruct 外,它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类,而非思维链式的提示将 LLMs 的评分远离人类。此外,本研究揭示了强化学习来自人类反馈所引发的潜在偏见,即高估陈述的深度。
Oct, 2023
大型语言模型(LLMs)是自我监督的预训练模型,可适应广泛的自然语言任务,但其是否理解其所说的话或表现出智能受到广泛争议。提出了一个新的可能性,即它们表现出的智能实际上是镜像了面试官的智能,它可能更多地揭示了面试者的智能和信仰而不是 LLMs 的智能。该论文提出了七种启发于大脑系统的方法,以实现人工智能的普遍自主权。
Jul, 2022
通过对 GPT-3 模型的测试,我们发现大型语言模型(LLMs)可能会出现几种人类认知效应,包括提前启动效应、距离效应、SNARC 效应和尺寸一致性效应,但缺乏锚定效应。我们描述了我们的方法学,并讨论了 GPT-3 出现这些效应的可能原因以及它们是模拟还是重新创造的问题。
Aug, 2023
通过对多个 LLM 模型的研究,本文不仅提供了全面的概述,还明确了现有挑战,并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点,为进一步的探索、增强和创新提供了启示。
Mar, 2024
经过调查,发现大型语言模型(LLMs)在金融行业消费者投诉中的使用与获取理想结果的可能性及语言特征改善相关,进一步实验证明了 LLM 在人类沟通中提升信息说服力的能力,并凸显了 LLM 在人类沟通中的转变潜力。
Nov, 2023
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究,发现 LLMs 在评估上的表现超过人类,并超过基于大量数据集微调的最先进方法。同时,研究了 LLMs 中存在的偏见,包括位置偏见、词汇偏见和顺序偏见,这可能会影响它们的评价判断。我们的发现表明,无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见,这归因于提示设计。此外,在 GPT-3.5 和 GPT-4 中也存在词汇偏见,特别是当含义具有数字或顺序的标签集时,强调在提示设计中需谨慎选择标签的表述。此外,我们的分析表明,这两个模型倾向于认为辩论的结束方是获胜方,暗示存在讨论末尾的偏见。
May, 2024