Apr, 2021

通过变分推断实现基于结果的强化学习

TL;DR通过提出一种新的变分推断形式,从环境交互中直接学习良好的奖励函数,并使用新的概率贝尔曼反演运算符,发展了一种离线策略算法来解决目标导向任务,该方法消除了手工制作奖励函数的需要,并对各种机械操纵和运动任务产生了有效的目标导向行为。