Jun, 2024

跨域行为策略优化的转导式离策略优化

TL;DR这篇论文介绍了一种名为 Transductive Off-policy PPO(ToPPO)的新型离策略 PPO 方法,通过引入离策略数据,提供了在 PPO 训练中结合离策略数据的理论依据和安全应用的指导,包括从离策略数据中得出潜在策略的政策改进下界的新型公式以及优化该下界的高效机制,并通过全面实验结果展示了 ToPPO 的良好性能。