ICLRJan, 2024

HAZARD 挑战:动态环境下的体验决策制定

TL;DR利用高保真虚拟环境的最新进展来建立智能化的具有知觉、推理和与物理世界交互能力的实体代理是推动力之一。我们提出了一种名为 HAZARD 的新的模拟实体评估标准,旨在评估动态情况下实体代理的决策能力。HAZARD 包括火灾、洪水和风等三个突发灾害场景,并特别支持使用大语言模型(LLMs)进行常识推理和决策。这个评估标准可以评估自主代理在动态变化的环境中的决策能力,包括强化学习(RL),基于规则的方法和基于搜索的方法。作为使用大语言模型解决这一挑战的第一步,我们进一步开发了一个基于 LLM 的代理并对其在解决这些困难任务方面的优势和挑战进行了深入分析。HAZARD 可在此 https 网址处获得。