Jun, 2022

由学习的环境模型指导的部分可观测性下的强化学习

TL;DR本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度 RL 技术。