ICMLJun, 2021

TempoRL: 学习何时采取行动

TL;DR提出了一种 proactive setting 的方法,其中智能体不仅在状态下选择一个动作,还选择要执行该动作的时间长度。TempoRL 方法介绍了状态之间的跳过连接,并学习了在这些跳过中重复相同动作的 skip-policy。研究表明,TempoRL 能够在传统和深度强化学习环境中学习成功的策略,速度比基准 Q-learning 快一个数量级。