BriefGPT.xyz
Ask
alpha
关键词
conserweightive behavioral cloning
搜索结果 - 1
行为克隆用于离线强化学习的可靠条件化
本文介绍了一种改进版的行为克隆方法,即 ConserWeightive Behavioral Cloning,该方法包含轨迹权重和保守正则化两个核心组件,通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定,从而提高条件行为克隆的可靠性
→
PDF
2 years ago
Prev
Next