WWWJul, 2021

GuideBoot: 深度情境强化学习的引导式自举方法

TL;DR本研究提出一种 Guided Bootstrap 方法,结合了贝叶斯方法和 Bootstrap 方法,旨在解决复杂深度场景下的探索 / 利用困境,并在合成任务和大规模广告环境上实现了显著性能提升。