Oct, 2018

具有独立调节能力的 f - 散度变分推断

TL;DR本文提出了一类新的尾部自适应的 f 散度,可以用于变分推断中的 α 分布,且在有限矩状况下同时实现大量覆盖性,用于改进 SAC 算法等深度强化学习任务时相较于基于 KL 散度和 α 散度的现有方法表现更好。