Jul, 2015

最大熵深层逆强化学习

TL;DR本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架,并展示了最大熵范例在 IRL 中的有效训练方法,具有与现有基准相当的性能,超过基于高度变化奖励结构的替代基准。同时,作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。