Aug, 2024

在概率奖励机器中的高效强化学习

TL;DR本研究针对在带有概率奖励机器的马尔可夫决策过程中强化学习的挑战,设计了一种新算法,显著改善了已知的后悔界限。我们的方法首次在理论和实验层面上展示了针对非马尔可夫奖励的高效学习能力,具有广泛的潜在应用价值。