通过互动游戏背景中的意图理解研究 LLMs 的社交智能

Jun, 2024

通过互动游戏背景中的意图理解研究 LLMs 的社交智能

InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context

Ziyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang, Jieyu Zhao

TL;DR使用新的框架 InterIntent，通过对大型语言模型进行多人游戏测试，发现虽然大型语言模型在选择意图方面表现出色，但对他人意图的推断能力较弱，与人类表现相差 20%；游戏表现与意图理解相关，强调了这四个组成部分对成功的重要性。研究强调了评估大型语言模型社交智能中意图理解的关键作用，并凸显了使用社交猜谜游戏作为复杂测试平台来提高大型语言模型评估的潜力。

Abstract

large language models (LLMs) have demonstrated the potential to mimic human social intelligence. However, most studies focus on simplistic and static self-report or performance-based tests, which limits the depth

large language models social intelligence interintent situational awareness intention understanding

发现论文，激发创造

评估和模拟社会智能：人类与人工智能能力的比较研究

该研究提出了一个用于评估社交智能的基准，引入了逆向推理和逆向规划这两个评估任务，通过基于递归贝叶斯推理的计算模型对人类行为模式进行解释，实验证明了人类在整体表现、零样本学习、一次推广和多模态适应性方面超越了最新的 GPT 模型，并显示出 LLMs 倾向于依赖模式识别来进行快速计算，对其是否拥有真正的人类级社交智能产生了质疑。

May, 2024

模拟社交交互与 LLMs 的成功误导性

通过模拟社交交互并对比全知与非全知的情况，我们的研究发现，尽管非全知模拟更贴近真实情景，但全知模拟所生成的角色在实现社交目标上更加成功。此外，我们证明从全知模拟中学习可以提高交互的表现自然度，但在合作情境中对目标的实现帮助有限。研究结果指出解决语言模型中的信息不对称仍然是一个基本的挑战。

Mar, 2024

学术智能的 LLMs 不一定具备社交智能

基于真实社会场景开发了标准化的社交智能测试，评估了大型语言模型的社交智能，发现社交智能仍有改进的空间，且其与学术智能存在较低的相关性，并受到社会因素的影响。

Mar, 2024

LLM 理论的心智与协调性：机遇与风险

大型语言模型在人机交互和人工智能方面的能力使他们能够以自然语言进行对话和推理，现在人们对于这些模型是否具备心智理论（ToM）的能力，即推理他人心理和情感状态的核心能力，产生了越来越多的兴趣。本研究通过对人类心智理论的角色和影响的文献进行探讨，识别出 LLM ToM 在个体和集体层面与人类互动中的关键领域，并指出了每个领域中所涉及的机会与风险。在个体层面上，本文考虑了 LLM ToM 在目标规范、对话适应、共情和拟人化方面的表现方式。在群体层面上，本文考虑了 LLM ToM 如何促进集体调适、合作或竞争以及道德判断。该研究阐述了一系列潜在的影响，并提出了未来研究的最急需关注的领域。

May, 2024

大型语言模型是否理解多意图口语？

本研究通过利用大型语言模型（LLMs）进行多意图口语语言理解（SLU）的研究，提出一种独特的方法，充分利用 LLMs 的生成能力，在 SLU 环境中重构了实体槽位，引入了子意图指令（SII）的概念，增强了对复杂多意图通信的解析和解释，从而形成了名为 LM-MixATIS 和 LM-MixSNIPS 的结果数据集。我们的研究表明，LLMs 可以匹配并潜在地超越当前最先进的多意图 SLU 模型的能力。此外，我们还介绍了两个开创性的度量标准，实体槽位准确度（ESA）和综合语义准确度（CSA），以深入分析 LLMs 在这一复杂领域的熟练程度。

Mar, 2024

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

LLM 是否具备类人推理能力？评估 LLM 对开放性回答的心智理论

利用 Reddit 的 ChangeMyView 平台的帖子，该研究评估了大型语言模型在处理心理理论推理时的能力，并通过提供人类意图和情感来增强模型表现，揭示了模型在开放式问题中与人类心理推理相比存在的差距。

Jun, 2024

将苹果与橙子进行比较：在物体分类任务中使用 LLM 强化的多模态意图预测

应用大型语言模型进行人机交互中人类意图推断的 hierarchical 方法评估

Apr, 2024

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024