Mar, 2024

利用学习的策略基础进行规划以最优解决复杂任务

TL;DR用继任特征学习策略基础,以解决具有非马尔可夫奖励规范的多个任务的广义问题,在有限状态自动机中描述的任务中,使用这些(子)策略的组合可以在无需额外学习的情况下生成最优解,与通过规划组合(子)策略的其他方法相比,本方法能达到全局最优性,即使在随机环境中也是如此。