Jul, 2024

爸爸就是人工智能:打破规则超越基准

TL;DR人类通过遵循现有的规则和程序以及通过创造性的飞跃来解决问题。我们基于Baba Is You游戏开发了一个新的基准,其中代理商通过操纵环境中的物体和规则来达到指定的目标并赢得游戏。我们测试了三种最先进的多模式大型语言模型(OpenAI GPT-4o,Google Gemini-1.5-Pro和Gemini-1.5-Flash),发现它们在需要操作和组合游戏规则的泛化时存在严重的失败。