Oct, 2022

行为克隆用于离线强化学习的可靠条件化

TL;DR本文介绍了一种改进版的行为克隆方法,即 ConserWeightive Behavioral Cloning,该方法包含轨迹权重和保守正则化两个核心组件,通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定,从而提高条件行为克隆的可靠性,并在多个基准测试中得到良好表现。