关键词value function estimation
搜索结果 - 6
- 连续强化学习中的预测与控制
本文提出了将值函数分解为两个组成部分的方法,分别在不同的时间尺度上更新,其中永久性值函数持有随时间持久存在的一般知识,而短暂性值函数允许快速适应新情况,理论结果表明这种方法非常适用于连续学习,并与神经科学中的互补学习系统(CLS)理论建立了 - AAAI有效地结合值预测和特征预测的广义 Bootstrap 目标方法
本文提出了一种新的更新价值函数的方法 ——η 回报混合,其将 TD 方法和 SF 方法相结合,并在表格和非线性函数逼近上进行了实验,结果表明该方法具有更高的效率和控制性能。
- 基于核的时间差分方法的最优策略评估
本文提出一种基于重现核希尔伯特空间的方法来估算无限时间折扣马尔可夫奖励过程的值函数的方法,并使用经验过程理论技术导出了误差的上界,同时证明了在样本大小 n 和有效时间跨度 H = (1-gamma)^{-1} 方面具有最优的最小值。
- ICML优先级时间差分学习
在 TD 学习中,提出一种重新加权状态的方法,在更新方程中考虑到其重要性和价值估计的可靠性,证明此方法在线性函数逼近下收敛,并在实验中与其他 TD 方法进行比较。
- 强化学习通用化中价值与策略的解耦
提出了一种新的深度强化学习算法 IDAAC,采用不变性分离的方式,分别优化策略和价值函数,通过辅助损失使表示对环境的任务无关属性具有不变性,该算法在 Procgen 基准测试中表现出很好的泛化性能,并在 DeepMind 控制任务中超过了流 - 无限时域离策略估计中的双重稳健偏差降低
本文提出了一种基于学习价值函数的无偏增强方法,可用于减小通常重要性采样 (IS) 估计器的方差,消除因密度比估计误差引入的潜在高偏差,并证明其具有双倍的稳健性。