Sep, 2022

MO2: 基于模型的离线选项

TL;DR本研究提出了 Model-Based Offline Options(MO2) 算法,支持在连续的状态 - 动作空间中进行样本高效的瓶颈选项发现,以提高对转移域上的探索和值估计,实验结果表明,在复杂的长视程连续控制任务中,MO2 的特性是至关重要的,并且超过了最近的选项学习方法。