Jun, 2023

基于度量感知的信赖域算法保证收敛的策略优化

TL;DR本文探讨基于KL散度的信任域方法在强化学习中的应用,进而提出基于Wasserstein和Sinkhorn两种新的信任域方法用于策略优化,并在多个任务中进行了实验验证。