ICLRFeb, 2024

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

TL;DR提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统,对大型语言模型和提示进行了广泛实验,并探索了基线任务规划器的多个改进,预计该基准工具将加快语言导向的任务规划器的发展。