May, 2015

具有次线性遗憾的终身强化学习安全策略搜索

TL;DR开发一种在对抗环境下实施多任务在线学习、可以执行安全约束的终身策略梯度学习算法,通过在基准动态系统和四旋翼控制应用中验证,实现了终身策略搜寻的次线性遗憾。