May, 2012

马尔可夫决策过程中的安全探索

TL;DR本文提出了一种基于安全的强化学习探索方法,通过限制注意力在一组安全的最小子集中,实现安全探索策略的优化,该方法在以前提出的大多数探索方法中可兼容,并在火星地形探索问题中得到了验证。