Feb, 2024

双重二元性:用变分原对偶策略优化进行受约束强化学习

TL;DR在这项研究中,我们通过实施 Lagrangian 和 Fenchel 对偶性,将原始约束问题重构为无约束原始 - 对偶优化问题,以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题,其中访问度量是凸约束。同时,通过将访问度量嵌入到有限维空间中,我们可以通过结合函数逼近来处理较大的状态空间。