May, 2023

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

TL;DR本文探索了一种方法,即在特定的游戏场景中测试大型语言模型的表现,以此来深入了解它们是否能像环境理解代理一样进行操作,涵盖了五个交互设置,并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则,并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。