Dec, 2023

参数化投影贝尔曼算子

TL;DR通过学习近似的Bellman操作符来解决AVI算法中的问题,提出了一种名为投影Bellman操作符(PBO)的创新方法,该方法不需要使用样本估计,能够在泛化过渡样本并避免计算密集型的投影步骤,进而理论上分析了其性质,并利用神经网络参数化在离线和在线设置下实施了学习PBO的算法,并在多个强化学习问题上实证展示了PBO相较于常规Bellman操作符的优势。