May, 2023

GRD:强化学习中可解释奖励再分配的生成式方法

TL;DR本文提出了一种基于因果生成模型的回报分解方法,旨在解决强化学习中延迟奖励问题,并演示了该方法在实验中的良好性能及可解释性。