Apr, 2024

AgentQuest: 一个模块化的基准测试框架,用于衡量和提升LLM代理的进展

TL;DR通过构建可扩展的模块化基准和评估指标,提出了AgentQuest框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。