Oct, 2023

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

TL;DR在线强化学习是研究的主题之一, 尤其在线性Markov决策过程中使用了对抗性损失和强盗反馈, 提出了两个算法以改善后悔性能。