Jul, 2020

基于梯度学习器的逆强化学习

TL;DR本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。