ACLApr, 2024

AgentQuest: 一个模块化的基准测试框架,用于衡量和提升 LLM 代理的进展

TL;DR通过构建可扩展的模块化基准和评估指标,提出了 AgentQuest 框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。