AAAIAug, 2022

目标条件下的 Q 学习作为知识蒸馏

TL;DR本篇论文研究了强化学习在目标条件环境下的表现,提出了一种基于知识蒸馏的 Q 值函数更新方法,可以显著提高高维度空间下的目标条件策略学习,同时在多目标学习中也可以有效应用。此外,本研究还提供了一些理论支持,表明所提出的方法只需要 O (d) 个转移数据就可以完成目标任务,相较于标准的离线算法 DDPG 的需要至少 O (d^2) 个转移数据学习一个最优策略。