Oct, 2021

通过悲观主义实现最优离线强化学习

TL;DR本文研究了离线强化学习问题,特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题,提出了自适应悲观值迭代算法,并推导了其次优性上界,推广到了无任何假设的情况下,并得到了无假设的本质学习下界,揭示了离线强化学习固有的根本限制。