Apr, 2023

基于准度量学习的最优目标达成强化学习

TL;DR本文介绍了一种新的强化学习(Reinforcement Learning)方法 ——Quasimetric Reinforcement Learning(QRL),该方法利用拟度量结构来学习最优值函数,与以往的方法不同,QRL 目标专门设计给拟度量,并提供了强有力的理论恢复保证。实证分析证明,相比于替代方案,QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能,在基于状态和基于图像的观察中都是如此。