BriefGPT.xyz
Ask
alpha
关键词
policy improvement operators
搜索结果 - 1
闭合形式策略改进算子下的离线强化学习
本研究提出了行为约束的策略优化方法,通过模拟历史状态转移,采用先进的算法,成功地实现了通过行为约束进行离线强化学习。研究中,我们提出了闭式策略改进算子。我们首次发现,行为约束自然促使使用一阶泰勒展开,从而线性逼近策略目标。此外,由于实际数据
→
PDF
2 years ago
Prev
Next