ICMLJul, 2021
MURAL:用于结果驱动增强学习的元学习不确定奖励
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning
Kevin Li, Abhishek Gupta, Ashwin Reddy, Vitchyr Pong, Aurick Zhou...
TL;DR采用基于归一化最大似然分布的元学习技术来获得不确定性感知的分类器对于鼓励探索和提供正向结果的引导至关重要。本文提出了一种计算归一化最大似然分布的新方法,并展示了该算法在导航和机器人操作任务中具有实际应用的有效性。