ICMLJun, 2021

有效离线策略评估学习策略

TL;DR研究提出了一种新型的强化学习框架,采用高级别动作空间,包括一组等效的任意长度的动作序列,能够提高强化学习的效率和计算效率。在两个最先进的离策略算法中应用该框架,实验证明,该框架能够使代理在每一集与环境打交道的次数更少,从而提高性能。