BriefGPT.xyz
Dec, 2023
参数化投影贝尔曼算子
Parameterized Projected Bellman Operator
HTML
PDF
Théo Vincent, Alberto Maria Metelli, Boris Belousov, Jan Peters, Marcello Restelli...
TL;DR
通过学习近似的Bellman操作符来解决AVI算法中的问题,提出了一种名为投影Bellman操作符(PBO)的创新方法,该方法不需要使用样本估计,能够在泛化过渡样本并避免计算密集型的投影步骤,进而理论上分析了其性质,并利用神经网络参数化在离线和在线设置下实施了学习PBO的算法,并在多个强化学习问题上实证展示了PBO相较于常规Bellman操作符的优势。
Abstract
approximate value iteration
~(AVI) is a family of algorithms for
reinforcement learning
~(RL) that aims to obtain an approximation of the optimal value function. Generally, AVI algorithms implement an iterated proc
→