Jun, 2024

大型语言模型中理解心智的零、有限和无限信念历史

TL;DR在这篇论文中,我们提出了一种新的概念、分类法和框架 —— 使用零、有限和无限信仰历史进行理论心智推理,并开发了一个名为 'Pick the Right Stuff' 的多回合文本游戏作为一个基准。我们评估了六个大型语言模型在这个游戏中的表现,并发现它们在零信仰历史上的性能一致优于有限信仰历史。此外,我们还发现其中两个参数规模较小的模型胜过了所有参数规模较大的模型。我们期望这项工作为未来的理论心智基准开发铺平道路,也为需要更复杂的理论心智推理能力的更复杂的人工智能代理或系统的推进和发展提供支持。