Jul, 2024

CRAB:跨环境多模态语言模型智能体的对比基准

TL;DR以Crab为基础的跨环境任务自动评估框架是第一套旨在支持跨环境任务的代理系统评估框架,包括了图形细粒度评估方法和任务构建的高效机制。