Jul, 2024

基于《我的世界》建筑对话代理任务的LLM基准

TL;DR我们提出将Minecraft构建任务调整为适用于评估LLM在空间导向任务中的能力并提供构建代理设计的基准,与之前的工作不同,我们尝试提供一个全面的综合性合成基准来测试构建代理在一系列包含常见建筑操作的不同任务上的性能,我们相信这种方法使我们能够探测不同代理的具体优势和劣势,并测试LLM在挑战性的空间推理和基于向量的数学领域的能力。