BriefGPT.xyz
Ask
alpha
关键词
markovian reward
搜索结果 - 1
贝叶斯逆强化学习用于非马尔可夫奖励
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化
→
PDF
16 days ago
Prev
Next