Oct, 2023

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

TL;DR在线强化学习是研究的主题之一,尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈,提出了两个算法以改善后悔性能。