BriefGPT.xyz
Ask
alpha
关键词
policy extraction
搜索结果 - 3
离线强化学习中,价值学习真的是主要瓶颈吗?
离线强化学习的性能问题一直存在着,本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究,发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响,同时,离线强化学习的性能问题主要还是由训练数
→
PDF
23 days ago
AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化
本研究提出了一种解决隐式策略发现问题的方法,并通过优化问题的形式对其进行了描述。基于这个优化问题,我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard,它们继承了 IQL 中演员和评论家解耦的优势,并阐明了为什么
→
PDF
a month ago
生成对抗模仿学习
提出了一种提取专家行为策略的新框架,直接从数据中提取策略,将模仿学习与生成对抗网络进行比拟,提出了无模型模仿学习算法,并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。
PDF
8 years ago
Prev
Next