Mar, 2021

使用好奇心对比正向动力学模型实现高效强化学习表示学习

TL;DR本文介绍了使用 “好奇心对比前向动态模型(CCFDM)” 在基于原始像素的强化学习任务中实现更高的样本效率,并通过提供内在奖励进一步鼓励智能体进行探索,通过更好的探索策略和可用于对比学习的数据增强改善样本效率和泛化性能。在 DeepMind 控制套装基准测试中,利用 CCFDM 作为基础的现有无模型 RL 方法如 Soft Actor-Critic 表现优于以前的基于像素的强化学习方法。