Jan, 2019

风险感知主动逆强化学习

TL;DR本文提出一种风险感知主动逆强化学习算法,旨在最小化机器人正在学习的策略的性能风险,并将主动查询集中在具有潜在大通用误差的状态空间区域,证明该算法在网格世界、模拟驾驶和桌子铺设任务上优于标准主动逆强化学习方法,并提供一种基于性能的停止准则,使机器人知道何时已接受足够的演示以安全地执行任务。