BriefGPT.xyz
Ask
alpha
关键词
reward machine
搜索结果 - 3
贝叶斯逆强化学习用于非马尔可夫奖励
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化
→
PDF
16 days ago
检测隐藏的触发器:将非马尔可夫奖励函数映射到马尔可夫
通过学习奖励机制,将非马尔可夫奖励函数映射为等效的马尔可夫函数,证明了奖励机制相对于确定性有限状态自动机对于建模单一自动机中的奖励依赖性的重要性,并通过在 Officeworld 领域学习黑盒非马尔可夫奖励函数以及在 Breakfastwo
→
PDF
6 months ago
在部分已知语义环境中联合学习奖励机制和策略
该论文研究了强化学习在奖励机制下的任务,提出了一种利用概率估计和 Q-learning 算法的强化学习算法,能够成功推断出奖励机制并且渐进地学习任务的策略,即使环境中的原子命题的真值存在不确定性。
PDF
2 years ago
Prev
Next