May, 2024

clembench-2024: 作为多动作代理的挑战性、动态、互补、多语言基准测试和底层灵活框架

TL;DR利用大型语言模型自我对弈进行对话游戏的研究,旨在探索其普适性、评估模型的性能,并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础,或最终建立模型和模拟评估器的闭环开发环境。