Dec, 2023

自适应上界置信度增强的近端策略优化

TL;DR通过引入自适应PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善PPO的性能,并通过大量实验初步证明我们的自适应PPO对比PPO-CLIP表现出的样本效率和性能。