偏好引导和逆强化学习
本文将逆向强化学习问题推广到多个任务,通过引入一定数量的结构化先验,我们将问题形式化为统计偏好提取。我们展示了我们的框架不仅允许我们从多个专家中有效地学习,而且还可以有效地区分每个专家的目标。
Jun, 2011
我们考虑了在未知的随机马尔可夫环境或游戏中,从代理人的示范学习的问题。我们旨在估计代理人的偏好,以构建同一任务的改进策略。为了做到这一点,我们将已知MDP中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点,为了易于处理,我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下,这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。
Aug, 2014
考虑逆强化学习的设置,其中学习者扩展了主动选择多个环境的能力,从而观察代理在每个环境中的行为。我们首先展示了,如果学习者可以在一些固定的状态和行动集上尝试任何过渡动态,那么存在一种重建代理奖励函数的算法,其理论上可能性最大,并且仅需要少量(对数级别)的实验。接着,我们将这个设置扩展到更加现实的情况,即学习者可能无法选择任何转移动态,而是受到一些固定环境的限制。我们将实验中得到的信息最大化问题与次模函数最大化联系起来,并展示了贪心算法是近似最优的(对数因子)。最后,我们在一个受行为心理学启发的环境中对我们的算法进行了实证验证。
Jan, 2016
本文对逆强化学习领域的现有文献进行了分类调查,介绍了IRL问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
研究学习者和专家在视角不一致的情况下,利用逆强化学习算法从专家演示数据中学习近似最优策略的方法。并引入了“教学风险”概念,衡量在这种情况下,学习者需要付出的非最优代价,提出了专家可以通过更新学习者的视角,降低教学风险的教学方案。
Oct, 2018
使用基于偏好的后验采样和贝叶斯方法解决了强化学习中的信用指派问题,提出了一种新的算法DUELING POSTERIOR SAMPLING(DPS),并且给出了第一个关于基于偏好的RL的后验保证率。
Aug, 2019
本文提出一种基于贝叶斯反向强化学习和风险价值的自我评估方法,使得能够从演示中学习的智能体能够计算其性能的高置信度界限,并使用这些界限确定何时具有充足数量的演示。
Nov, 2022
提出了一种名为Inverse Preference Learning(IPL)的新算法,用于从离线偏好数据中学习奖励函数,该算法使用Q函数来代替学习得到的奖励函数,具有更高的参数效率和更少的算法超参数和学习网络参数。
May, 2023
我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习(IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型,与现有的离线模型基于IRL方法有所不同。我们利用一类先验分布,参数化了专家对环境的模型准确性,以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点,即当先验认为专家对环境有高度准确的模型时,估计出的策略表现出了稳健的性能。我们在MuJoCo环境中验证了这个观察结果,并展示了我们的算法在离线IRL问题上优于最先进的方法。
Sep, 2023