Jan, 2024
AgentBoard: 多轮 LLM 代理人的分析评估板
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
Chang Ma, Junlei Zhang, Zhihao Zhu, Cheng Yang, Yujiu Yang...
TL;DR为了评估大型语言模型的能力并加快其实际应用,我们引入了 AgentBoard,一个综合性的基准测试评估框架,它不仅提供了对模型能力的深入理解,还促进了其性能的可解释性。