Jul, 2024

离线强化学习中的均衡策略切换:切换还是不切换?

TL;DR采用最优输运的思想,我们对离线强化学习中的政策切换问题进行了系统研究,并设计了一种新颖的切换公式的Net Actor-Critic算法,数值实验证实了我们方法在多个Gymnasium基准测试上的效率。