BriefGPT.xyz
Ask
alpha
关键词
exponential q-learning
搜索结果 - 1
ICLR
无 OOD 动作的离线强化学习:通过隐含价值规范进行样本内学习
本论文针对离线强化学习中,在分布转变时计算 Q 值的问题,提出了基于量化回归的 IQL 策略,结合隐含值规范化框架提出了 SQL 和 EQL 算法,实验结果验证了算法的有效性和鲁棒性。
PDF
a year ago
Prev
Next