Mar, 2024
强化学习的苦涩教训:行动者 - 评论家中的高估、过拟合和可塑性
Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning
Michal Nauman, Michał Bortkiewicz, Mateusz Ostaszewski, Piotr Miłoś, Tomasz Trzciński...
TL;DR通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体,并结合最新的正则化技术,我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。