LLM 代理人是否表现出社会行为？

Dec, 2023

Do LLM Agents Exhibit Social Behavior?

Yan Leng, Yuan Yuan

TL;DR大型语言模型在社交科学研究和实际应用中的作用被不断拓展，然而在与人类和其他代理进行交互时，这些模型展现了一系列人类类似的社交行为，同时也存在一些行为差异，因此需要进一步研究和发展评估协议，以直接应用这些模型来模拟人类行为。

Abstract

The advances of large language models (LLMs) are expanding their utility in both academic research and practical applications. Recent social science research has explored the use of these "black-box" LLM agents for simulating complex social systems and potentially substituting human su

large language models social interaction principles gpt-4 social behaviors emulating human behavior

发现论文，激发创造

基于协作生成代理的 LLM 任务导向协调中人类行为互动模拟

应用大型语言模型（LLMs）在各种任务和社会模拟中取得了显著进展，但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距，我们引入了协作生成代理，为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究，以审查它们的协调能力。我们提出了一个新颖的框架，赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明，这些代理显示出有希望的性能。然而，我们也发现了限制，阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。

Oct, 2023

大型语言模型能模拟人类的信任行为吗？

大型语言模型（LLM）代理程序作为模拟人类行为的应用工具已经得到越来越广泛的应用，本文关注于研究 LLM 代理程序能否真正模拟人类的信任行为，通过对 LLM 代理程序在信任博弈框架下的行为模式以及与人类的行为一致性的研究，探究了代理程序对信任的偏好和对人类与代理程序之间的信任差异，并对信任在不同场景下的重要性提出了重要启示，从而推动了对 LLM 代理程序与人类之间行为类比的理解。

Feb, 2024

我们来谈谈：探索竞争 LLM 代理商的自发合作

最近的研究发现，由大型语言模型（LLMs）驱动的代理人具有模拟人类行为和社会动态的能力。我们通过三个案例研究揭示，即使在竞争环境中，LLM 代理人也能够自发地建立合作关系。这一发现不仅展示了 LLM 代理人模仿人类社会中竞争与合作的能力，而且验证了计算社会科学的一个有前途的愿景。具体来说，它表明 LLM 代理人可以用来模拟人类社会交互，包括自发的合作，从而为社会现象提供洞察力。

Feb, 2024

探索 LLM 代理的协作机制：社会心理学视角

NLP 系统在多智能体社会中能够模拟人类协作智能吗？本文通过实验和理论结合，研究了当代 NLP 系统之间的协作机制，发现使用不同的社交行为，从积极辩论到内省反思，LLM 代理能够高效完成任务，并表现出类似人类的社交行为，这为 LLM 的协作机制提供了进一步的研究启示。

Oct, 2023

具身 LLM 代理学会在组织团队中合作

该论文通过在大型语言模型的代理上引入基于提示的组织结构，以提高团队效率并降低沟通成本。

Mar, 2024

辩论中 LLM 仿真的系统偏差

近期自然语言处理的进展，特别是大型语言模型（LLMs）的出现，为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而，LLMs 是复杂的统计学习器，缺乏直接的演绎规则，因此容易产生意想不到的行为。本研究突出了 LLMs 在模拟人类互动方面的局限性，特别关注 LLMs 在模拟政治辩论方面的能力。我们的发现表明，尽管被指示从特定的政治角度进行辩论，LLM 代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离，似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果，该方法使我们能够操纵 LLM 内的偏见，并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性，以开发帮助代理克服这些偏见的方法，是创造更现实模拟的关键一步。

Feb, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致？

本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Mar, 2024

基于 LLM 的模仿次理性行为：幻觉还是现实？

利用大型语言模型生成合成的人类示范，然后通过模仿学习学习非理性主体策略，以此来模拟人类特征性的非理性行为，通过实验评估了该框架的模拟非理性行为的能力，并得出结论和讨论框架的潜在收益、挑战和限制。

Feb, 2024

使用大型语言模型进行反复游戏

使用行为博弈理论研究大型语言模型行为，结果显示它们在自我利益方面的表现非常出色，但在协调方面表现不佳，尤其表现出一些行为特征。

May, 2023

比人类更友好：大型语言模型在囚徒困境中的行为如何？

对于大型语言模型（LLMs）作为人工社交代理的行为知之甚少，我们仍缺乏这些代理对简单社交刺激的反应的大量证据。在经典的博弈论实验中测试 AI 代理的行为为评估这些代理在原型社交环境中的规范和价值提供了有希望的理论框架。在本文中，我们研究了 Llama2 在与展现不同敌意水平的随机对手对抗迭代囚徒困境时的合作行为。我们引入了一种系统的方法来评估 LLM 理解游戏规则的能力以及其解析历史游戏日志进行决策的能力。我们进行了持续 100 轮的游戏模拟，并根据行为经济学文献中定义的维度分析了 LLM 的决策。我们发现，Llama2 倾向于不主动背叛，但在对手将其背叛率降低至 30% 以下时，它会采取一种谨慎的合作方式，迅速转向一种既宽容又不报复的行为。与先前对人类参与者的研究相比，Llama2 表现出更强的合作倾向。我们对 LLMs 在博弈理论场景中的研究方法是朝着使用这些模拟来指导 LLM 审核和对齐实践迈出的一步。

Jun, 2024