BriefGPT.xyz
Ask
alpha
关键词
d4rl benchmark tasks
搜索结果 - 2
策略性保守型 Q 学习
提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架,用于解决离线强化学习中的逼近误差和分布外动作的问题,在 D4RL 基准任务上表现优于现有方法。
PDF
a month ago
作为离线强化学习表现策略类别的扩散策略
本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning),与行为克隆和策略改进的耦合均有助于实现出色的性能,证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。
PDF
2 years ago
Prev
Next