BriefGPT.xyz
Ask
alpha
关键词
missing transitions
搜索结果 - 1
离线强化学习中基于双模拟的表示方法的缺陷及其解决方法
通过分析发现,离线强化学习任务中缺失的状态转换对于等价关系原则特别有害,导致估计无效。同时,奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现,我们提出在离线强化学习环境中应用期望分为运算符进行表示学习,从而防
→
PDF
8 months ago
Prev
Next