Oct, 2023

马尔可夫决策过程中行为度量的核心观点

TL;DR行为度量作为强化学习中构建表示的有效机制,通过使用正定核提出了行为度量的新视角,定义了一种与最近引入的MICo距离等价的度量,并提供了新的理论结果,包括通过度量来限制值函数的差异,并证明了我们的度量可以被嵌入到低畸变误差的有限维欧几里得空间中。我们用强有力的实证结果来补充我们的理论,证明了这些方法在实践中的有效性。