Jun, 2019

通过引导误差减少稳定离轨策略 Q 学习

TL;DR该研究针对离线策略评估的弱点,探讨了如何通过约束动作选择减少 Bellman backup 带来的 bootstrapping error,提出了一种名为 BEAR 的实用算法,在不同的离线策略分布上都表现出较强的鲁棒性。