BriefGPT.xyz
Aug, 2024
在概率奖励机器中的高效强化学习
Efficient Reinforcement Learning in Probabilistic Reward Machines
HTML
PDF
Xiaofeng Lin, Xuezhou Zhang
TL;DR
本研究针对在带有概率奖励机器的马尔可夫决策过程中强化学习的挑战,设计了一种新算法,显著改善了已知的后悔界限。我们的方法首次在理论和实验层面上展示了针对非马尔可夫奖励的高效学习能力,具有广泛的潜在应用价值。
Abstract
In this paper, we study
Reinforcement Learning
in
Markov Decision Processes
with
Probabilistic Reward Machines
(PRMs), a form of non-Marko
→