评估和模拟社会智能：人类与人工智能能力的比较研究

May, 2024

评估和模拟社会智能：人类与人工智能能力的比较研究

Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

Junqi Wang, Chunhui Zhang, Jiapeng Li, Yuxi Ma, Lixing Niu...

TL;DR该研究提出了一个用于评估社交智能的基准，引入了逆向推理和逆向规划这两个评估任务，通过基于递归贝叶斯推理的计算模型对人类行为模式进行解释，实验证明了人类在整体表现、零样本学习、一次推广和多模态适应性方面超越了最新的 GPT 模型，并显示出 LLMs 倾向于依赖模式识别来进行快速计算，对其是否拥有真正的人类级社交智能产生了质疑。

Abstract

Facing the current debate on whether large language models (LLMs) attain near-human intelligence levels (Mitchell & Krakauer, 2023; Bubeck et al., 2023; Kosinski, 2023; Shiffrin & Mitchell, 2023; Ullman, 2023), the current study introduces a →

large language models social intelligence benchmark evaluation tasks human behavioral patterns

发现论文，激发创造

大型语言模型的情绪智能

本研究评估了大型语言模型（LLMs）的情感智能，特别关注情感理解，通过心理测量评估实现，发现大部分 LLMs 的情商高于人类平均水平并超过了某些特定质量以人为中心的模型，同时探讨了模型大小、训练方法和架构等因素对 LLMs 情感智能的影响。

Jul, 2023

Clever Hans 或神经心理理论？在大型语言模型中进行社交推理的应力测试

我们通过在 6 个任务上进行广泛的评估，发现虽然 LLM 表现出某些神经理论社交认知能力，但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素，并发现 LLM 难以应对对抗性例子，这表明它们依赖于浅层启发式算法，而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。

May, 2023

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

通过互动游戏背景中的意图理解研究 LLMs 的社交智能

使用新的框架 InterIntent，通过对大型语言模型进行多人游戏测试，发现虽然大型语言模型在选择意图方面表现出色，但对他人意图的推断能力较弱，与人类表现相差 20%；游戏表现与意图理解相关，强调了这四个组成部分对成功的重要性。研究强调了评估大型语言模型社交智能中意图理解的关键作用，并凸显了使用社交猜谜游戏作为复杂测试平台来提高大型语言模型评估的潜力。

Jun, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致？

本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Mar, 2024

结构化、灵活、鲁棒：针对超出分布推理任务对大型语言模型进行基准测试和改进，以实现更类似于人类的行为

人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准，并通过提供结构化符号推理模块来拓展深度学习语言模型，以使其更符合人类推理。实验表明，在语言表达能力、泛化能力等方面，人类远远优于 LLMs，这说明混合 AI 模型具有更接近人类推理的潜力。

May, 2022

神经心智理论？关于大型语言模型社交智能的限制

本文从经验和理论角度出发，探究了现代 NLP 系统中的社交智能和心理理论的问题，并使用 SocialIQa 和 ToMi 任务检验了 GPT-3 的社交智能和 Theory of Mind 的能力，结果表明 GPT-3 在这些任务中存在严重的不足，进而考虑从人为中心的 NLP 方法入手可能会更加有效。

Oct, 2022

LLM 认知判断与人类不同

GPT-3 和 ChatGPT 在认知科学文献中对有限数据归纳推理任务的能力被调查，结果表明这些模型的认知判断并非类似于人类。

Jul, 2023

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023