AAAIDec, 2019

在视频游戏中实用的强化学习的离散和连续动作表示

TL;DR本研究基于 Soft Actor-Critic 算法提出了一种能够处理离散、连续和参数化动作的强化学习算法 Hybrid SAC,不仅能成功地解决高速驾驶等游戏中的任务,而且在参数化动作基准任务上也能与现有最先进的算法竞争,同时探讨了在最小计算成本下使用正则化流来丰富策略表达能力的影响,发现了 SAC 与正则化流一起使用时可能出现的潜在问题,并提出了优化不同目标的方法。