ICMLFeb, 2020

基于 Bandit 反馈的乐观策略优化

TL;DR本研究考虑模型基于强化学习中的政策优化方法,提出了一种乐观的信任域策略优化算法,在离散情况下,对于未知转换和奖励反馈的情况,获得了首个亚线性 Regret 的下界。