Jun, 2024

强化学习中的无模型主动探索

TL;DR采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。