Jun, 2023

使用函数逼近解决强化学习中重尾奖励问题:极小最优和实例相关遗憾界

TL;DR本文提出了两个针对带有重尾奖励的强化学习问题的算法,分别是 extsc {Heavy-OFUL} 和 extsc {Heavy-LSVI-UCB},并证明了它们在确定性和随机线性 bandits 的最劣情况下是最优的,同时通过一种新的鲁棒的自正规化集中不等式来实现优化。