Apr, 2025

文本竞技场

TL;DR本研究解决了传统基准未能评估动态社交技能(如谈判、心智理论和欺骗)的问题,提供了一个开源的文本竞技游戏集合以训练和评估大语言模型的行为。通过57种独特的环境设置,TextArena允许用户轻松地进行模型能力的在线评估,旨在促进研究和社区的可扩展性与创新。