Jul, 2017

逆强化学习的高效概率性能界限

TL;DR本文提出了一种基于贝叶斯思想的采样方法,可用于确定在反向强化学习环境下实际高置信度策略性绩效界限,并演示如何利用该界限进行风险感知的策略选择和改进。