Mar, 2024

强化学习的苦涩教训:行动者 - 评论家中的高估、过拟合和可塑性

TL;DR通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体,并结合最新的正则化技术,我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。