Jan, 2024

AgentBoard: 多轮 LLM 代理人的分析评估板

TL;DR为了评估大型语言模型的能力并加快其实际应用,我们引入了 AgentBoard,一个综合性的基准测试评估框架,它不仅提供了对模型能力的深入理解,还促进了其性能的可解释性。