Oct, 2020
FOCAL:通过距离度量学习和行为规范实现高效完全离线的元强化学习
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization
Lanqing Li, Rui Yang, Dijun Luo
TL;DR本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法,构建一种全新的、终端到终端的离线元元强化学习算法,以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战,并将该算法应用于多种元强化学习基准测试中,展示了较为出色的性能。