Jul, 2022

逆强化学习的主动探索

TL;DR本文提出使用主动探索策略的逆强化学习算法(AceIRL),该算法通过构造置信区间捕捉潜在的奖励函数,寻找信息最充分的环境区域的探索策略,从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法,并与具备环境生成模型情况下的样本复杂度相匹配,在模拟实验中证明 AceIRL 优于其他探索策略。