Oct, 2024

游戏遍历基准:通过遍历 2D 游戏地图评估大型语言模型的规划能力

TL;DR本研究解决了大型语言模型在规划能力上的评估空缺,提出了一个名为游戏遍历基准(GTB)的新颖测试方法。研究发现,尽管GPT-4-Turbo在基准测试中表现最佳,其得分仅为44.97%,显示出现有模型在这个领域仍面临挑战,提示了后续研究的潜力和方向。