Oct, 2020

FOCAL:通过距离度量学习和行为规范实现高效完全离线的元强化学习

TL;DR本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法,构建一种全新的、终端到终端的离线元元强化学习算法,以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战,并将该算法应用于多种元强化学习基准测试中,展示了较为出色的性能。