Nov, 2023

逆强化学习的新型变分下界

TL;DR逆向强化学习通过学习专家轨迹的奖励函数,理解模仿或协作任务,从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法(VLB-IRL),通过最大化下界相当于最小化近似分布和真实分布之间的逆Kullback-Leibler散度,同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略,该方法在几个已知领域上优于现有的逆向强化学习算法。