Feb, 2023

复杂 3D 环境中的分层强化学习

TL;DR使用层次混合离线 - 在线的深度强化学习代理提出了一种解决 HRL 代理在可视复杂部分可观察 3D 环境中的问题的方法,并在 DeepMind Hard Eight 任务中与非分层 Muesli 基线相竞争,研究揭示了以前未注意到的实际挑战,并为了解复杂领域中的层次代理提供了新的视角。