Feb, 2022

BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs

TL;DR本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架,并提出了一种基于 dropout 网络的新方法 BADDr,旨在解决 BRL 方法在拓展性上存在的瓶颈,并证实其在处理规模较大的情况时的有效性。