Jun, 2023

在线决策的自动 GPT:基准测试和额外意见

TL;DR本文介绍了一个 Auto-GPT 样式的决策制定任务的综合基准研究,比较了 GPT-4、GPT-3.5、Claude 和 Vicuna 等流行的 LLMs 的性能,并介绍了一种称为 Additional Opinions 算法的易于实现的学习方法,可显著提高在线决策基准测试的性能,包括 WebShop 和 ALFWorld。