BriefGPT.xyz
Ask
alpha
关键词
d4rl datasets
搜索结果 - 3
AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化
本研究提出了一种解决隐式策略发现问题的方法,并通过优化问题的形式对其进行了描述。基于这个优化问题,我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard,它们继承了 IQL 中演员和评论家解耦的优势,并阐明了为什么
→
PDF
a month ago
自适应行为正则化的离线强化学习
本文提出了自适应行为正则化(ABR)的方法改善已有机器学习数据集中存在的行为采样偏差,从而提高了离线强化学习的效率和稳定性,并在 D4RL 数据集上实现了最新算法中更好或相当的性能。
PDF
2 years ago
离线强化学习的状态优势加权
本文提出了一种基于状态优势加权和 QSS 学习的离线强化学习方法,相比于传统的基于动作优势的方法能够更好地实现从离线到在线的转移,实验结果显示,该方法在 D4RL 数据集上表现出显著的性能优势和良好的泛化能力。
PDF
2 years ago
Prev
Next