BriefGPT.xyz
Ask
alpha
关键词
toppo
搜索结果 - 1
跨域行为策略优化的转导式离策略优化
这篇论文介绍了一种名为 Transductive Off-policy PPO(ToPPO)的新型离策略 PPO 方法,通过引入离策略数据,提供了在 PPO 训练中结合离策略数据的理论依据和安全应用的指导,包括从离策略数据中得出潜在策略的政
→
PDF
a month ago
Prev
Next