HAZARD 挑战：动态环境下的体验决策制定

ICLRJan, 2024

HAZARD 挑战：动态环境下的体验决策制定

HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments

Qinhong Zhou, Sunli Chen, Yisong Wang, Haozhe Xu, Weihua Du...

TL;DR利用高保真虚拟环境的最新进展来建立智能化的具有知觉、推理和与物理世界交互能力的实体代理是推动力之一。我们提出了一种名为 HAZARD 的新的模拟实体评估标准，旨在评估动态情况下实体代理的决策能力。HAZARD 包括火灾、洪水和风等三个突发灾害场景，并特别支持使用大语言模型（LLMs）进行常识推理和决策。这个评估标准可以评估自主代理在动态变化的环境中的决策能力，包括强化学习（RL），基于规则的方法和基于搜索的方法。作为使用大语言模型解决这一挑战的第一步，我们进一步开发了一个基于 LLM 的代理并对其在解决这些困难任务方面的优势和挑战进行了深入分析。HAZARD 可在此 https 网址处获得。

Abstract

Recent advances in high-fidelity virtual environments serve as one of the major driving forces for building intelligent embodied agents to perceive, reason and interact with the physical world. Typically, these e

high-fidelity virtual environments embodied agents dynamic situations large language models decision-making capabilities

发现论文，激发创造

通过多智能体模拟和人工智能加强疏散规划：了解危险环境中的人类行为

本文通过采用人工智能和多智能体系统等技术构建了一个仿真模型，旨在增进对人们在危险环境中遇到困境时的反应和应对方法的理解，以提供更高效和有效的疏散策略，从而改善危险区域内个人的安全和福祉。

Jun, 2023

基于模拟器的逻辑任务描述，用于评估具体化人工智能智能体的性能

本研究探讨了如何将基于逻辑型 BEHAVIOR 活动定义转化为不同模拟器中的相对应活动作为第一步，拓展机器人在家庭任务中的应用，为此我们提出了一种适用于不同领域和场地的标准测试方法。

Jun, 2022

通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision 及其后续探索

通过 PCA-EVAL 基准和 HOLMES 多智能体协作框架的比较，我们发现 GPT4-Vision 模型在端到端的具体决策制定能力方面表现出色，平均决策准确率比 GPT4-HOLMES 高出 3%，但这种性能仅适用于最新的 GPT4-Vision 模型，超过开源最先进的多模态大型语言模型的 26%。我们的结果表明，像 GPT4-Vision 这样功能强大的多模态大型语言模型对具体决策有很大的潜力，为多模态大型语言模型研究开辟了新的途径。

Oct, 2023

SAMPLE-HD: 同时动作和运动规划学习环境

本文提供了一个新的环境，用于学习交互式推理的视觉和行为方面的模拟，以掌握家庭用品的操作技能，并利用 SAMPLE-HD 环境生成场景、语言指令和训练路径。

Jun, 2022

人性化的楼内实体送货基准

我们提出了一种以人为中心的楼宇内具身交付商业场景的具体商业模拟，并开发了一个全新的虚拟环境系统，构建了一个模拟极地研究站的多层连接建筑空间，并包括具有抓取和移动能力的自主人物和机器人以及大量的交互物品。基于该环境，我们建立了一个包含 13,000 个语言指令的交付数据集，用于指导机器人提供服务。我们通过人物模拟人类行为，并对他们日常生活中的各种需求进行采样。最后，我们提出了一种以大型多模型为中心的方法，作为该数据集的基线系统。与过去的具身数据工作相比，我们的工作侧重于以人机交互为中心的商业情景下的虚拟环境。我们相信这将为具身社区带来新的视角和探索角度。

Jun, 2024

AllenAct: 一种行动式 AI 研究框架

介绍了一种模块化、灵活的学习框架 AllenAct，旨在提高交互式人工智能领域的可访问性和鼓励新研究人员的加入。

Aug, 2020

ThreeDWorld 交通运输挑战：面向物理合理实体智能的视觉引导任务和动作规划基准

介绍了三维仿真的机器人任务与动作规划基准测试的设计，通过对象的选择、拾取和运输，要求具有先进物理约束和规划任务的人工智能智能体能够在仿真环境中完成任务。实验结果表明，现有算法在此测试中需要进一步发展。

Mar, 2021

LEGENT: 落地式代理人开放平台

通过使用 LEGENT 生成的数据，我们训练的视觉 - 语言 - 动作模型在具体任务中超越了 GPT-4V，展示了令人期待的泛化能力。

Apr, 2024

DANLI：根据自然语言指令执行的思考代理

本文提出了一种基于神经和符号表示的推理代理，它在遵循语言指令的同时，基于过去的经验（例如自然语言和自我中心视觉）积极应用推理和计划，从而实现了大于 70％的改进，并提供了令人印象深刻的透明度和可解释性。

Oct, 2022

询问行动前：基于语言模型的具身决策中信息的收集

提出一种名为 “行动前询问”（Asking Before Action，ABA）的方法，利用自然语言引导大型语言模型（LLMs）在未知环境中主动查询外部知识，从而增强其效率和性能，实验证明该方法在 ALFWorld 等体验决策基准中表现出更好的性能。

May, 2023