Jul, 2024

大规模语言模型是否是战略决策者?两人非零和博弈中的性能与偏差研究

TL;DR调研表明,尽管Large Language Models(LLMs)能够以精心策划的提示解决特定任务,但在问题设置或提示改变时,它们表现出偏向不同的策略,导致性能下降。因此,我们研究了LLMs在战略游戏中的行为,分析了不同设置和提示下的性能变化,并发现它们存在至少一种系统性偏向,即(1) 位置偏向,(2) 收益偏向或(3) 行为偏向。此外,我们观察到LLMs的偏向与正确动作是否一致会影响它们的表现。然而,当前流行的追求“更大、更新”的趋势在此领域不适用,目前最佳表现的LLM(GPT-4o)的性能下降最为显著。最后,我们注意到,尽管思维链提示确实减少了对大多数模型的偏向影响,但在根本上解决这个问题仍然存在困难。