BriefGPT.xyz
Ask
alpha
关键词
adaptive advantage-guided policy regularization
搜索结果 - 1
ICML
自适应优势引导的策略规范化用于离线强化学习
通过自适应优势导向的策略规范化方法(A2PR),我们能够在离线强化学习中解决样本分布外问题,通过生成匹配数据点分布的样本,有效地选择高优势动作,并在保持一定保守性的同时改进行为策略,从而达到改进策略的理论保障,以及有效减轻价值函数高估的性能
→
PDF
a month ago
Prev
Next