BriefGPT.xyz
Ask
alpha
关键词
adaptive sampling distribution
搜索结果 - 1
领域:温和保守的基于模型的离线强化学习
这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN),通过引入模型样本的自适应抽样分布来调整模型数据惩罚,理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界,与先前的基于模型的离线强化
→
PDF
10 months ago
Prev
Next