Nov, 2017

无痕迹:学会重置以实现安全和自主的强化学习

TL;DR本文提出了一种可以同时学习前向策略和清除策略的自动化安全有效的强化学习方法,可以显著减少手动重置,减少不安全的动作,并能自动诱导课程。