LoHoRavens: 一项长视程语言引导的机器人桌面操纵基准

Oct, 2023

LoHoRavens: 一项长视程语言引导的机器人桌面操纵基准

LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic Tabletop Manipulation

Shengqiang Zhang, Philipp Wicke, Lütfi Kerem Şenel, Luis Figueredo, Abdeldjallil Naceri...

TL;DR本研究基于体验工具人和大型语言模型的融合，在长时序任务中通过引入颜色、尺寸、空间、算术和参考等多个方面的推理来进行桌面操作，提出了一个模拟基准测试过程，同时探索通过标题生成和可学习接口来弥合模态差距，以改进当前流行模型在长时序桌面操作任务中的表现。

Abstract

The convergence of embodied agents and large language models (LLMs) has brought significant advancements to embodied instruction following. Particularly, the strong reasoning capabilities of LLMs make it possible

embodied agents large language models long-horizon reasoning tabletop manipulation modality bridging

发现论文，激发创造

LHManip：用于杂乱桌面环境中的长时程语言驱动操作任务的数据集

通过提供具有多步骤的长期任务的数据集，作者展示了语言条件的模仿学习和离线强化学习在机器人操作中的重要性和表现。

Dec, 2023

具有大规模语言模型的通用长程操控

该研究介绍了一种利用大型语言模型（LLMs）的能力生成通用长视野操作的基本任务条件的框架，用于对新颖物体和未知任务进行操作。这些任务条件用于指导长时程任务执行中动态运动基元（DMP）轨迹的生成和调整。我们还基于 Pybullet 创建了一个用于进行长时程任务评估的具有挑战性的机器人操纵任务套件。在模拟和现实环境中进行的大量实验证明了我们的框架在涉及新对象的熟悉任务和新颖但相关任务上的有效性，突显了大型语言模型在提升机器人系统的多功能性和适应性方面的潜力。

Oct, 2023

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

VLMbench：一个视觉语言操纵组合基准

本文提出自动操作求解器（AMSolver）系统和基于其构建的视觉与语言操作基准（VLMbench），用于处理基于语言指令的机器人操作任务，并开发了基于关键点的 6D-CLIPort 模型来处理多视角观察和语言输入并输出一系列 6 自由度（DoF）动作。

Jun, 2022

喊叫您的机器人：从语言纠正中实时改进

通过语言反馈不断改进高层策略，使机器人在复杂的、需要长程规划的任务中表现得更加出色，无需额外的远程操作。

Mar, 2024

用于编排双臂机器人的大型语言模型

利用大型语言模型（LLM）的语言感知和上下文学习能力，开发了基于 LLM 的双手动作协调系统（LABOR Agent），用于解决双手操作任务的时空协调问题，并通过在仿真环境中测试实验证明其接近最优性能。

Apr, 2024

LEMMA: 学习语言驱动的多机器人操作

我们介绍了一个基于人类语言指令的桌面环境下，侧重于任务分配和长时间跨度物体操作的多机器人语言条件操作（LEMMA）基准。LEMMA 具有多种类型的过程生成任务，其复杂度不同，其中一些需要机器人使用工具并将工具传递给彼此。为每个任务提供 800 个专家示范和人类指令进行训练和评估。LEMMA 相对于现有基准提出了更大的挑战，因为它要求系统识别每个操纵器的限制，并相应地分配子任务，同时还要处理每个任务中的强时间依赖。为应对这些挑战，我们提出了一种基于模块化分层规划方法作为基线。我们的结果突显了 LEMMA 在开发未来语言条件多机器人系统方面的潜力。

Aug, 2023

大型语言模型中用于阿瓦隆游戏中的角色识别的长时对话理解

利用社交推理游戏 Avalon: The Resistance 中的欺骗行为和多方对话测试大型语言模型（LLMs）的能力和性能。

Nov, 2023

CALVIN: 一种针对长时间跨度机器人操作任务的语言条件策略学习基准

本文提出了 CALVIN（通过语言和视觉组合动作）这一开放源代码数据集，目的是让机器人代理能够通过追踪无限制的语言指令来解决许多长期性的机器人操纵任务，并支持传感器套件的灵活规定。在零 - shot 条件下，实验证明基于多环境下的学习的基线模型在 CALVIN 任务中表现不佳，因此本数据集对开发学习如何将人类语言与世界模型相关联的创新代理具有重要意义。

Dec, 2021

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022