ICMLJun, 2021

强化学习的模块化:通过算法独立性进行信用分配

TL;DR本研究提出了一种模块化信用分配的形式化理论,通过对算法自身的因果分析,将社会决策制定框架作为马尔可夫决策过程的更精细正式框架,证明了一些单步时序差分行为价值方法满足这一约束条件,而所有政策梯度方法都不满足该约束条件,传输学习的实证研究表明这种行为价值方法在要求对先前最优决策序列进行稀疏更改的情况下,比政策梯度方法具有更高的样本效率。