Nov, 2023

强化学习中的最大熵模型修正

TL;DR我们提出并理论分析了一种在强化学习中使用近似模型进行规划的方法,可以减少模型误差的不利影响,并且如果模型足够准确,还可以加速收敛到真实值函数。其中一个关键组成部分是基于最大熵密度估计形式的 MaxEnt 模型校正(MoCo)过程,该过程根据下一个状态的分布来纠正模型。基于 MoCo,我们引入了模型修正值迭代(MoCoVI)算法及其基于采样的变体 MoCoDyna。我们表明,MoCoVI 和 MoCoDyna 的收敛速度比传统的无模型算法要快得多。与传统的模型算法不同,MoCoVI 和 MoCoDyna 有效地利用近似模型,并且仍然收敛到正确的值函数。