折扣强化学习与函数逼近在连续任务的控制中本质上不兼容,无法通过常规优化表达,使用函数逼近时不存在最优策略。因此,我们鼓励研究者采用严格的优化方法,如最大化平均奖励,来解决连续任务的强化学习问题。
Oct, 2019
本文研究强化学习的折扣问题,提出一种基于双曲贴现的 RL 代理,该代理简单有效且符合实验结果;同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。
Feb, 2019
本篇论文通过引入可变的折扣因子,建立起广泛适用的序列决策模型,并构建了统一的强化学习、逆强化学习和基于偏好的强化学习模型,这一模型囊括了传统模型的所有情况,同时展现出更高的泛化能力。
本研究探讨了在实际强化学习中,用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响,并发现了一族目标,可以插值两个不同贴现因子的价值函数。实验表明,使用这种框架可以提高价值函数的估计效果和策略优化更新效果,并且还提供了新的深度强化学习启发式修改策略优化算法的见解。
Jun, 2021
本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时,我们探讨了折扣因子在深度 Q 网络(DQN)学习过程中所起的作用,实验结果表明在逐渐增加折扣因子值的情况下,可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时,其在多项实验中均优于原始 DQN,并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来,同时描述了在学习过程中可能陷入局部最优解的可能性,从而将我们的讨论与探索 / 利用困境联系起来。
Dec, 2015
研究了如何在自主系统操作中考虑公平性,并提出一种基于深度强化学习的公平策略学习框架,应用于多个领域中,包括折扣回报和平均回报算法。
Aug, 2020
本文研究了强化学习算法中的折扣因子对提高性能的影响,并通过实验证明了折扣因子可以作为正则化项,对可用数据的大小、分布和混合率等性质有明显影响。
Jul, 2020
提出了一种称为 DGRL 的方法,该方法通过学习目标的阶乘表示,并通过离散化瓶颈进行处理,以更粗略的目标规范来解决在噪声和高维度输入空间中定义目标的挑战;实验证明应用离散化瓶颈可以提高目标条件下的 RL 设置的性能。
Nov, 2022
本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法,该方法采用了随机规划而非以前使用的确定性规划方法,从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略,并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点,然后比较了这些方法在控制多个 Atari 游戏方面的性能。
Feb, 2024
研究如何选择奖励函数以提高强化学习的学习速度,提出基于状态的奖励设计原则,并提出线性规划算法以最大化行动差距和最小化主观贴现;通过在表格环境中使用 Q 学习算法进行实验,表明设计奖励遵循一定的原则,如逐步增加接近目标奖励,可以加速学习。
May, 2022