Oct, 2022

重新思考强化学习中的值函数学习以实现泛化

TL;DR本研究旨在训练多个视觉环境下的RL代理以提高观察泛化性能,并提出了一种延迟评论者策略梯度(DCPG)算法,该算法可以使用单一统一的网络架构来实现,极大地提高了Procgen基准测试的样本效率和观测泛化性能。