Jun, 2021

利用后继特征发现多样化近似最优策略

TL;DR本篇研究提出了一种名为 'Diverse Successive Policies' 的新型方法,应用在强化学习中以发掘具有多样性的政策集合,进而实现探索、迁移、层级和鲁棒性等目标。该方法通过将问题形式化为一种约束马尔科夫决策过程(CMDP)实现最大化多样性、最小化多样性奖励之间的相关性以及保证策略的近最优性。研究还发现了最近提出的鲁棒性奖励和差异奖励对实验的灵敏度以及收敛方向等诸多限制,进而提出了新型的多样性奖励机制应对此类限制。实验结果表明,该多样性奖励机制能够有效发现不同区分度的行为模式。