关键词temporal difference methods
搜索结果 - 6
- 时差学习的有限样本分析
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
- 目标网络如何稳定时序差分法
本研究提供了对深度强化学习中关于目标网络的理论解释,通过对拟合部分策略估计方法的形式化定义,解释了目标网络为何可以稳定 TD 学习,并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。
- 截断强调时间差异方法在预测和控制中的应用
本文旨在通过使用截断 “随后追踪”(followon traces)的强调式时间差(TD)方法,解决随后追踪在实践中难以使用的大方差问题。与原始的随后追踪不同,截断的随后追踪仅依赖于有限的历史数据,从而减少方差,并使我们提出的强调式 TD - 模型基强化学习中的复合误差对抗学习
本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用,实验结果表明,该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。
- AAAI用于稳定强化学习的固定时间差分方法
本文提出了一种解决强化学习中含有稳定性问题的新型算法 —— 固定时间段时序差分算法,该算法通过对当前概率及其后 $h$ 步概率分别采用 $TD$ 算法进行预测,具有一定的优势。
- AAAI加速梯度时差学习
本文提出了一种新的 TD 方法家族 ATD 方法,用于在保证数据效率、减少参数灵敏度和渐进无偏的情况下,大幅减少计算和存储的量,其收敛性得到了期望的证明,并在多个基准域和大型工业能源分配域上进行了实验。