通过社交推理游戏对大型语言模型玩家的微观分析
研究论文中探索了大型语言模型在社交推理游戏《反抗之巅》中的潜力,并介绍了AvalonBench测试环境,用于评估多代理模型的决策和语言处理能力。实验结果显示了模型在该游戏环境中存在的性能差距,进而提出了开发更先进的自我学习模型和代理框架来模拟这类复杂游戏环境的设想。
Oct, 2023
通过使用单词猜谜游戏评估LLM的智能性能,本研究提出了DEEP和SpyGame两个评估框架,能够有效评估各种LLM的能力,并捕捉其适应新情境和战略性沟通的能力。
Oct, 2023
通过评估大型语言模型在角色扮演后的决策能力,验证了角色扮演的有效性,提供了提升大型语言模型在角色扮演任务中决策能力的度量和指导。通过使用大型语言模型生成与MBTI人格类型相对应的虚拟角色描述,并设计具体的量化操作来评估大型语言模型在角色扮演后的决策能力,从适应性、探索与利用权衡能力、推理能力和安全性四个方面分析决策能力与相应MBTI类型的关联。实验结果表明,不同角色在决策能力的四个方面存在稳定的差异,显示出大型语言模型可以有效地扮演不同角色并体现其真实的社会学特征。
Feb, 2024
通过Game Theory基于GAMA-Bench框架评估LLMs的决策能力,研究发现GPT-3.5在鲁棒性方面表现出色,但其概括能力相对有限,通过Chain-of-Thought等方法可以提高其性能;此外,评估发现GPT-4在GAMA-Bench上表现最好,得分为72.5,而GPT-3.5的不断更新也标志着模型智能的显着提高。
Mar, 2024
利用大型语言模型自我对弈进行对话游戏的研究,旨在探索其普适性、评估模型的性能,并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础,或最终建立模型和模拟评估器的闭环开发环境。
May, 2024
使用新的框架InterIntent,通过对大型语言模型进行多人游戏测试,发现虽然大型语言模型在选择意图方面表现出色,但对他人意图的推断能力较弱,与人类表现相差20%;游戏表现与意图理解相关,强调了这四个组成部分对成功的重要性。研究强调了评估大型语言模型社交智能中意图理解的关键作用,并凸显了使用社交猜谜游戏作为复杂测试平台来提高大型语言模型评估的潜力。
Jun, 2024
对于大型语言模型(LLMs)作为人工社交代理的行为知之甚少,我们仍缺乏这些代理对简单社交刺激的反应的大量证据。在经典的博弈论实验中测试AI代理的行为为评估这些代理在原型社交环境中的规范和价值提供了有希望的理论框架。在本文中,我们研究了Llama2在与展现不同敌意水平的随机对手对抗迭代囚徒困境时的合作行为。我们引入了一种系统的方法来评估LLM理解游戏规则的能力以及其解析历史游戏日志进行决策的能力。我们进行了持续100轮的游戏模拟,并根据行为经济学文献中定义的维度分析了LLM的决策。我们发现,Llama2倾向于不主动背叛,但在对手将其背叛率降低至30%以下时,它会采取一种谨慎的合作方式,迅速转向一种既宽容又不报复的行为。与先前对人类参与者的研究相比,Llama2表现出更强的合作倾向。我们对LLMs在博弈理论场景中的研究方法是朝着使用这些模拟来指导LLM审核和对齐实践迈出的一步。
Jun, 2024
调研表明,尽管Large Language Models(LLMs)能够以精心策划的提示解决特定任务,但在问题设置或提示改变时,它们表现出偏向不同的策略,导致性能下降。因此,我们研究了LLMs在战略游戏中的行为,分析了不同设置和提示下的性能变化,并发现它们存在至少一种系统性偏向,即(1) 位置偏向,(2) 收益偏向或(3) 行为偏向。此外,我们观察到LLMs的偏向与正确动作是否一致会影响它们的表现。然而,当前流行的追求“更大、更新”的趋势在此领域不适用,目前最佳表现的LLM(GPT-4o)的性能下降最为显著。最后,我们注意到,尽管思维链提示确实减少了对大多数模型的偏向影响,但在根本上解决这个问题仍然存在困难。
Jul, 2024
该研究通过基于网格的游戏,如井字棋、四子棋和五子棋,引入了一种新颖且可扩展的大规模语言模型(LLM)基准。通过开源的游戏模拟代码,可以让LLMs进行竞争,并生成JSON、CSV、TXT和PNG格式的详细数据文件,用于排行榜排名和进一步分析。研究结果显示在不同游戏和提示类型之间,LLMs的性能存在显著差异,涵盖了胜率、取消资格率、错失机会分析和无效移动分析。该研究增进了对LLMs在非特定训练游戏中的能力的理解,有助于评估它们的规则理解和战略思维能力,并为进一步探究在基于游戏的框架中LLMs的限制以及它们在复杂决策情境中的实用性奠定了基础。
Jul, 2024