Jul, 2023

逆强化学习有效视野

TL;DR本研究分析了逆强化学习的时间跨度对于奖励估计准确性和计算效率的影响,并提出了使用更短的时间跨度可以更快地产生更好结果的解释。此研究还提出了在逆强化学习中一起学习奖励和有效时间跨度比独立学习奖励更为自然的看法。实验结果证实了理论分析。