BriefGPT.xyz
Sep, 2021
带模型不确定性的在线强化学习
Online Robust Reinforcement Learning with Model Uncertainty
HTML
PDF
Yue Wang, Shaofeng Zou
TL;DR
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒Q学习算法和鲁棒TDC算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒Q函数,并证明了 TDC 算法渐近收敛到一些稳定点,在数值实验中进一步验证了算法的鲁棒性。
Abstract
robust reinforcement learning
(RL) is to find a policy that optimizes the worst-case performance over an
uncertainty set
of MDPs. In this paper, we focus on
→