ICMLJun, 2021

以变分授权为代表学习目标导向的强化学习

TL;DR通过代表愿景达成的功能感知状态表示进行的变分互信息最大化,能够为达到愿景状态的广泛应用的多任务策略的自监督强化学习提供框架和方法,同时还提出了广义 GCRL 和 MI-Based RL 的统一方法,即 VGCRL,并结合方法的容量和光滑性分析了能力扩展,以及其与不同线性变换结构的潜在目标发现算法的比较评价指标,即 LGR。