Jan, 2024

InfiAgent-DABench: 数据分析任务中的代理评估

TL;DR介绍了第一个专门设计用于评估 LLM-based agents 在数据分析任务中的基准测试 InfiAgent-DABench,并收集了 311 个数据分析问题和 23 个最新 LLM 的基准测试结果。