Feb, 2021

深度强化学习中的战术乐观主义和悲观主义

TL;DR该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。 启发于这一点,研究人员引入了一种新的深度演员 - 评论员框架,Tactical Optimistic and Pessimistic (TOP) 评估,它在线切换乐观和悲观的价值学习,并在解决像素环境的连续控制任务中创造了新的最优状态。