Jul, 2022

序列建模中应对乐观主义策略的强化学习

TL;DR本研究提出了一种解决优化偏差的方法,即通过显式分离策略和世界模型,并在测试时寻找能够应对多种可能未来环境的策略,以更好地完成多种自动驾驶任务。