Oct, 2023

学习通过选项框架整合强化学习的探索策略

TL;DR提出了基于选项评论家模型的统一强化学习探索框架,该框架学习集成一组多样的探索策略,使得智能体能够自适应地选择最有效的探索策略,以实现给定任务的相关探索与利用平衡。通过在 MiniGrid 和 Atari 环境中进行各种实验验证了所提探索框架的有效性。