Jun, 2024

行动条件自预测强化学习的统一框架

TL;DR自预测学习是增强学习代理的关键挑战之一,本文通过分析一个考虑行动条件的自预测目标(BYOL-AC),利用 ODE 框架描述其收敛性质,并突出 BYOL-Pi 和 BYOL-AC 动力学之间的重要区别,展示了两个表示之间的差异和联系。在线性函数逼近和深度 RL 环境中的实证研究结果表明,在各种不同场景下,BYOL-AC 具有更好的性能。