BriefGPT.xyz
Oct, 2023
面向具有悔恨的对抗性线性马尔可夫决策过程的最优化
Towards Optimal Regret in Adversarial Linear MDPs with Bandit Feedback
HTML
PDF
Haolin Liu, Chen-Yu Wei, Julian Zimmert
TL;DR
在线强化学习是研究的主题之一, 尤其在线性Markov决策过程中使用了对抗性损失和强盗反馈, 提出了两个算法以改善后悔性能。
Abstract
We study
online reinforcement learning
in
linear markov decision processes
with
adversarial losses
and
→