Oct, 2022

串联马尔可夫链推理的策略梯度

TL;DR该论文提出了一种新的强化学习决策框架,将智能体的行为建模为参数化推理马尔科夫链,利用可行的策略梯度估计进行优化,通过模拟推理马尔科夫链以接近其稳态分布来完成动作选择,并且可以通过适应性地缩短决策困难度来加速推理,该算法在诸如 Mujoco 和 DeepMind Control 等任务中实现了最先进的性能。