Feb, 2024

通过策略空间中的最优传输测量强化学习中的探索

TL;DR量化和比较强化学习算法通过知识传递在探索和学习方面的努力,并使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度,从而提供有关强化学习算法的探索行为的洞见并比较不同算法的探索行为。