利用大型语言模型再现和扩展行为策略实验
通过实验,本研究发现大型语言模型能够在一定程度上将自然语言描述的利他主义和自私行为转化为适当的行为,但在适应有条件回报的情况下存在局限性,特别是在社会困境的一般人类行为模式方面存在潜在限制。研究呼吁进一步探讨大型语言模型生成的代理在更广泛的社会困境中自动生成行为的因素,探讨模型架构、训练参数和各种合作伙伴策略对代理行为的影响,最终促进更符合人类价值和社会规范的人工智能系统的发展。
May, 2023
通过使用大型语言模型进行人际互动的模拟,本研究通过来自Park等人(2023)的启发,通过引入兴趣引擎技术,展示了两种可信的人类行为代理模拟:一种是两个代理人的谈判,另一种是六个代理人的谋杀迷游戏。
Aug, 2023
大型语言模型可以在复杂环境中模拟人类行为,在竞争环境中展示了高级推理技能,需要评估环境来探测战略推理、竞争动态场景中的长期规划,介绍了AucArena作为一个评估LLMs的新型模拟环境,在竞拍中证明了通过简单的提示,LLMs确实展示了参与竞拍所需的许多技能,还发现对LLM代理进行自适应和观察过去竞拍策略的明确鼓励,可以提高这些技能的准确性,这些结果表明使用LLM代理模拟复杂社交动态的潜力,尤其在竞争环境中,但我们也观察到个体LLMs的能力存在相当大的变异性,值得注意的是,即使是最先进的模型(GPT-4)有时也会被启发式基准线和人类代理超越,这突显了LLM代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。
Oct, 2023
大型语言模型在社交科学研究和实际应用中的作用被不断拓展,然而在与人类和其他代理进行交互时,这些模型展现了一系列人类类似的社交行为,同时也存在一些行为差异,因此需要进一步研究和发展评估协议,以直接应用这些模型来模拟人类行为。
Dec, 2023
计算实验、基于代理模型、大语言模型、人形化和因果分析是本文的关键词,该研究综述了代理结构的历史发展和其与人工社会的结合,阐述了计算实验和大语言模型代理相互提供的优势,并讨论了该研究领域的挑战和未来趋势,为后续相关研究提供指导。
Feb, 2024
大型语言模型(LLM)代理程序作为模拟人类行为的应用工具已经得到越来越广泛的应用,本文关注于研究LLM代理程序能否真正模拟人类的信任行为,通过对LLM代理程序在信任博弈框架下的行为模式以及与人类的行为一致性的研究,探究了代理程序对信任的偏好和对人类与代理程序之间的信任差异,并对信任在不同场景下的重要性提出了重要启示,从而推动了对LLM代理程序与人类之间行为类比的理解。
Feb, 2024
现代大型语言模型(LLMs)在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有LLMs的本地性能。我们将LLMs部署为简单的多臂赌博机环境中的代理,使用完全基于环境描述和交互历史的LLM提示。通过实验,我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好,但得出的结论是在复杂环境中,可能需要非平凡的算法干预才能使LLMs代理能够做出理想的决策。
Mar, 2024
大规模语言模型(LLMs)在模拟人类行为决策中的概率分布和生成行为序列方面表现不佳,因此在直接应用LLMs作为模拟人类行为的代理之前需要谨慎考虑。
Apr, 2024
对于大型语言模型(LLMs)作为人工社交代理的行为知之甚少,我们仍缺乏这些代理对简单社交刺激的反应的大量证据。在经典的博弈论实验中测试AI代理的行为为评估这些代理在原型社交环境中的规范和价值提供了有希望的理论框架。在本文中,我们研究了Llama2在与展现不同敌意水平的随机对手对抗迭代囚徒困境时的合作行为。我们引入了一种系统的方法来评估LLM理解游戏规则的能力以及其解析历史游戏日志进行决策的能力。我们进行了持续100轮的游戏模拟,并根据行为经济学文献中定义的维度分析了LLM的决策。我们发现,Llama2倾向于不主动背叛,但在对手将其背叛率降低至30%以下时,它会采取一种谨慎的合作方式,迅速转向一种既宽容又不报复的行为。与先前对人类参与者的研究相比,Llama2表现出更强的合作倾向。我们对LLMs在博弈理论场景中的研究方法是朝着使用这些模拟来指导LLM审核和对齐实践迈出的一步。
Jun, 2024
调研表明,尽管Large Language Models(LLMs)能够以精心策划的提示解决特定任务,但在问题设置或提示改变时,它们表现出偏向不同的策略,导致性能下降。因此,我们研究了LLMs在战略游戏中的行为,分析了不同设置和提示下的性能变化,并发现它们存在至少一种系统性偏向,即(1) 位置偏向,(2) 收益偏向或(3) 行为偏向。此外,我们观察到LLMs的偏向与正确动作是否一致会影响它们的表现。然而,当前流行的追求“更大、更新”的趋势在此领域不适用,目前最佳表现的LLM(GPT-4o)的性能下降最为显著。最后,我们注意到,尽管思维链提示确实减少了对大多数模型的偏向影响,但在根本上解决这个问题仍然存在困难。
Jul, 2024