BriefGPT.xyz
Ask
alpha
关键词
value overestimation
搜索结果 - 3
ICML
自适应优势引导的策略规范化用于离线强化学习
通过自适应优势导向的策略规范化方法(A2PR),我们能够在离线强化学习中解决样本分布外问题,通过生成匹配数据点分布的样本,有效地选择高优势动作,并在保持一定保守性的同时改进行为策略,从而达到改进策略的理论保障,以及有效减轻价值函数高估的性能
→
PDF
a month ago
高更新比例下的深度强化学习剖析:克服价值高估和发散
通过对深度强化学习的分析,我们发现在大量梯度更新次数远远超过环境样本数量的情况下,存在一种优先偏见现象,即代理程序过度依赖早期的交互并低估后期经验,从而影响其学习能力。我们发现这种现象的根本挑战在于价值过高估计,这不仅体现在样本外分布数据上
→
PDF
4 months ago
固定数据集策略优化中悲观主义的重要性
本文研究了固定数据集策略优化算法的预期回报的最坏情况保证,并提出了一种统一的概念和数学框架来研究这个领域的算法,指出了朴素方法可能出现高估价值的情况。为了避免这种情况,可以使用悲观策略,该策略可以在数据集不完整的情况下实现良好表现,本文还给
→
PDF
4 years ago
Prev
Next