Nov, 2022

层次强化学习中用于紧急操作终止的立即反应方法

TL;DR提出一种方法,在强化学习中常常使用高级策略达到低级目标。本文在此基础上,针对现有方法无法验证高级动作是否过时的问题,通过对高级动作不断验证从而保持其有效性。通过实验验证,该方法能够在七个基准环境下同时具备分层 RL 和联邦 RL 的优点,实现了快速训练和即时反应。