Oct, 2023

无穷时间 MDP 的离线数据高效在线学习:一种贝叶斯方法

TL;DR本文研究了在线强化学习问题在无限时间段环境中的高效解决方法,其中假设有一个离线数据集作为起点,由一个未知能力水平的专家生成,我们展示了如果学习代理建模了专家使用的行为策略,它可以在最小化累计遗憾方面表现得更好,我们建立了一个前瞻性依赖先验的遗憾界限,提出了近似的被告知 RLSVI 算法,可以解释为使用离线数据集进行模仿学习,然后进行在线学习。