BriefGPT.xyz
Ask
alpha
关键词
optimism bias
搜索结果 - 1
序列建模中应对乐观主义策略的强化学习
本研究提出了一种解决优化偏差的方法,即通过显式分离策略和世界模型,并在测试时寻找能够应对多种可能未来环境的策略,以更好地完成多种自动驾驶任务。
PDF
2 years ago
Prev
Next