BriefGPT.xyz
Ask
alpha
关键词
behavior proximal policy optimization
搜索结果 - 1
ICLR
行为近端策略优化
本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在
→
PDF
a year ago
Prev
Next