Oct, 2023
将你的资金投到你的口中:在拍卖竞技场中评估 LLM 代理的战略规划与执行
Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena
Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson
TL;DR大型语言模型可以在复杂环境中模拟人类行为,在竞争环境中展示了高级推理技能,需要评估环境来探测战略推理、竞争动态场景中的长期规划,介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境,在竞拍中证明了通过简单的提示,LLMs 确实展示了参与竞拍所需的许多技能,还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励,可以提高这些技能的准确性,这些结果表明使用 LLM 代理模拟复杂社交动态的潜力,尤其在竞争环境中,但我们也观察到个体 LLMs 的能力存在相当大的变异性,值得注意的是,即使是最先进的模型(GPT-4)有时也会被启发式基准线和人类代理超越,这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。