BriefGPT.xyz
Ask
alpha
关键词
modular credit assignment
搜索结果 - 1
ICML
强化学习的模块化:通过算法独立性进行信用分配
本研究提出了一种模块化信用分配的形式化理论,通过对算法自身的因果分析,将社会决策制定框架作为马尔可夫决策过程的更精细正式框架,证明了一些单步时序差分行为价值方法满足这一约束条件,而所有政策梯度方法都不满足该约束条件,传输学习的实证研究表明这
→
PDF
3 years ago
Prev
Next