Jul, 2020
无监督稳定性高效赋能估计
Efficient Online Estimation of Empowerment for Reinforcement Learning
TL;DR为了解决通过变分下界(VLB)计算确定性经验上均衡值(EEI)方法存在的繁琐、高成本等问题,本文采用了基于可训练的高斯信道来构建一种通用的无偏EM算法,提出了一种新型方法,能够在不考虑外在奖励的情况下,通过包含每个执行器和未来状态之间的量的交互信息来实现不同控制环境下的稳定性控制,而且该方法能够大大降低采样的复杂性,并展示了该方法的优点。