Aug, 2020

稳健离线深度强化学习中克服模型偏差

TL;DR本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE,使用动力学模型评估策略的性能,得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。