基于《我的世界》建筑对话代理任务的LLM基准

Jul, 2024

基于《我的世界》建筑对话代理任务的LLM基准

A LLM Benchmark based on the Minecraft Builder Dialog Agent Task

Chris Madge, Massimo Poesio

TL;DR我们提出将Minecraft构建任务调整为适用于评估LLM在空间导向任务中的能力并提供构建代理设计的基准，与之前的工作不同，我们尝试提供一个全面的综合性合成基准来测试构建代理在一系列包含常见建筑操作的不同任务上的性能，我们相信这种方法使我们能够探测不同代理的具体优势和劣势，并测试LLM在挑战性的空间推理和基于向量的数学领域的能力。

Abstract

In this work we proposing adapting the minecraft builder task into an llm benchmark suitable for evaluating llm ability in →

发现论文，激发创造

学习执行行动或询问澄清问题

本文介绍了一种基于Minecraft环境的智能建筑代理程序，能够通过对话实现任意建筑物的建造，通过对Minecraft Corpus数据集进行扩展，赋予建筑代理程序提出问题的能力，并提出了两个新的任务，联合学习任务和学习提问任务。实验结果表明，该模型具有最先进的表现，并有实质性改进。

Apr, 2022

使用大型语言模型进行交互式规划：实现开放式多任务智能代理

本文探讨了在Minecraft中制定计划的问题，提出了一种名为Describe, Explain, Plan and Select (DEPS)的交互式规划方法，基于大型语言模型来改善长期计划的错误修正和目标选择。经过实验，我们的方法使得多任务代理程序的表现接近翻倍，这为$ exttt{ObtainDiamond}$大挑战提供了有希望的更新。

Feb, 2023

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估LLMs作为代理的推理和决策能力，显示出商业LLMs和开源竞争对手之间的性能差距。

Aug, 2023

SmartPlay: LLM为智能化代理测试基准

近期的大型语言模型（LLMs）展示了在智能代理和下一代自动化方面的巨大潜力，但目前缺乏一个系统性的基准来评估LLMs作为代理的能力。我们介绍了SmartPlay：一个具有挑战性的基准和评估LLMs作为代理的方法论。SmartPlay包括6个不同的游戏，包括石头剪刀布、汉诺塔、Minecraft。每个游戏都有独特的设定，提供最多20个评估设置和无限的环境变化。SmartPlay中的每个游戏独特地挑战了智能LLM代理的9个重要能力的子集，包括处理对象的依赖关系、提前规划、空间推理、从历史中学习和理解随机性。每个游戏测试的能力集之间的区别使我们能够单独分析每个能力。SmartPlay不仅是一个用于评估LLM代理整体性能的严格的测试平台，也是识别当前方法论中的空白的路线图。我们在github.com/LLMsmartplay/SmartPlay发布了我们的基准。

Oct, 2023

大型语言模型中的逻辑谜题解决评估：基于扫雷案例研究的洞察

我们的研究引入了一种新的任务--扫雷，旨在测试LLMs在陌生格式的任务中的推理和规划能力；我们的实验证明，尽管LLMs具备完成该任务所需的基本能力，但它们在将这些能力整合成解决扫雷问题所需的连贯的多步骤逻辑推理过程方面存在困难。这些发现强调了进一步研究LLMs推理能力及探索更复杂的AI推理和规划模型的必要性。

Nov, 2023

大型语言模型作为Minecraft代理

本研究探讨在Minecraft代理设置中应用和评估大型语言模型（LLMs），介绍澄清问题并研究改进的挑战和机会，同时提供了与代理互动的在线平台，并与先前的工作进行了评估。

Feb, 2024

AgentQuest: 一个模块化的基准测试框架，用于衡量和提升LLM代理的进展

通过构建可扩展的模块化基准和评估指标，提出了AgentQuest框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。

Apr, 2024

检索增强的代码生成用于情境动作生成：Minecraft案例研究

在该研究中，我们调查了使用大型语言模型（LLMs）来预测建造者采取的动作序列，在Minecraft协作建筑任务中，建筑师通过指示建造者使用3D方块来组装指定结构。借助LLMs的上下文学习能力，我们使用少样本启发式技术显著提高了性能，并对性能差距进行了详细分析，以作为未来工作的参考。

Jun, 2024

移动贝奇: 一种用于基于LLM的移动代理的评估基准

通过引入103个API来扩展传统的UI操作，结合真实用户查询和LLMs的扩充数据，Mobile-Bench提出了一种评估LLM-based移动代理能力的新型基准，其中包括832个数据输入和200多个任务，特别设计用于评估多应用程序协作场景，并引入了一种名为CheckPoint的更准确的评估指标来评估LLM-based移动代理在规划和推理步骤中是否达到关键点。

Jul, 2024

AgentSquare：模块化设计空间中的自动 LLM 代理搜索

本研究解决了当前 LLM 代理设计依赖于手动且任务特定设计的局限性，提出了模块化 LLM 代理搜索（MoLAS）问题。通过构建一个统一接口的模块化设计空间及提出新颖的 AgentSquare 搜索框架，我们实现了优化 LLM 代理的自动搜索，实验表明其性能优于人工设计，平均提升17.2%。

Oct, 2024