Jun, 2012

逆强化学习与梯度方法的学徒学习

TL;DR本文提出了一种新的梯度算法,用于从专家观察行为中学习策略,假设专家根据某种未知奖励函数行动最优,算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好,并且在两个人工数据集中表现更加可靠和高效。