Aug, 2024

通过社交推理游戏对大型语言模型玩家的微观分析

TL;DR本研究针对现有对社交推理游戏大型语言模型(LLMs)玩家评估方法的不足,提出了一种新颖的评估框架。通过引入变种SpyFall游戏的SpyGame进行实验,我们量化并定性分析了四个LLMs的游戏行为,发现我们提出的八项指标在识别意图和伪装能力的评估上更具有效性,并且识别出了影响LLMs游戏表现的四大类因素,丰富了结果的背景。