Aug, 2024

高维奖励的离策略强化学习

TL;DR本研究针对传统离策略强化学习在处理标量奖励时的局限性,提出了一种分布式强化学习的新方法。通过证明Bellman算子的收缩性及高维奖励的有效近似,研究成果使得以前无法解决的问题得以通过新的算法进行处理,具有重要的理论和实践意义。