ICMLOct, 2021

来自演示的动作量化连续控制

TL;DR本文提出了一种基于 RL 的新方法 AQuaDem,可从人类演示中学习连续动作空间的离散化,以实现在连续控制问题上的离散动作深度 RL 技术应用,并通过实验证明了优于 SAC 和 GAIL 的性能。