Jun, 2024
贝叶斯逆强化学习用于非马尔可夫奖励
Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards
TL;DR从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非Markovian奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化后验,通过优化其推断的奖励表现出良好性能,并与学习严格二值非Markovian奖励的现有方法进行了有利比较。