Jun, 2024
行动条件自预测强化学习的统一框架
A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning
Khimya Khetarpal, Zhaohan Daniel Guo, Bernardo Avila Pires, Yunhao Tang, Clare Lyle...
TL;DR自预测学习是增强学习代理的关键挑战之一,本文通过分析一个考虑行动条件的自预测目标(BYOL-AC),利用 ODE 框架描述其收敛性质,并突出 BYOL-Pi 和 BYOL-AC 动力学之间的重要区别,展示了两个表示之间的差异和联系。在线性函数逼近和深度 RL 环境中的实证研究结果表明,在各种不同场景下,BYOL-AC 具有更好的性能。