BriefGPT.xyz
Ask
alpha
关键词
evaluation instrument
搜索结果 - 1
clembench-2024: 作为多动作代理的挑战性、动态、互补、多语言基准测试和底层灵活框架
利用大型语言模型自我对弈进行对话游戏的研究,旨在探索其普适性、评估模型的性能,并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础,或最终建立模型和模拟评估器的闭环开发环境。
PDF
a month ago
Prev
Next