May, 2017
学习因子策略和动作值函数:因子化动作空间表示在深度强化学习中的应用
Learning to Factor Policies and Action-Value Functions: Factored Action Space Representations for Deep Reinforcement learning
Sahil Sharma, Aravind Suresh, Rahul Ramesh, Balaraman Ravindran
TL;DR该论文提出了一种新的学习范式,即分解学习控制策略使其在实现多个动作时只需要执行一个动作,从而取得了显著的性能提升,特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。