Oct, 2022
行为克隆用于离线强化学习的可靠条件化
Reliable Conditioning of Behavioral Cloning for Offline Reinforcement Learning
Tung Nguyen, Qinqing Zheng, Aditya Grover
TL;DR本文介绍了一种改进版的行为克隆方法,即 ConserWeightive Behavioral Cloning,该方法包含轨迹权重和保守正则化两个核心组件,通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定,从而提高条件行为克隆的可靠性,并在多个基准测试中得到良好表现。