本文研究强化学习的折扣问题,提出一种基于双曲贴现的 RL 代理,该代理简单有效且符合实验结果;同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。
Feb, 2019
本文研究了强化学习算法中的折扣因子对提高性能的影响,并通过实验证明了折扣因子可以作为正则化项,对可用数据的大小、分布和混合率等性质有明显影响。
Jul, 2020
本研究探讨了在实际强化学习中,用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响,并发现了一族目标,可以插值两个不同贴现因子的价值函数。实验表明,使用这种框架可以提高价值函数的估计效果和策略优化更新效果,并且还提供了新的深度强化学习启发式修改策略优化算法的见解。
Jun, 2021
在实践中,决策者经常面临着不同的风险偏好和不确定性的情况,传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法,并设计了可实现的近似算法来求解该问题。
Nov, 2023
通过推广折扣问题的公式,使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题,并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。
Sep, 2022
本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时,我们探讨了折扣因子在深度 Q 网络(DQN)学习过程中所起的作用,实验结果表明在逐渐增加折扣因子值的情况下,可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时,其在多项实验中均优于原始 DQN,并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来,同时描述了在学习过程中可能陷入局部最优解的可能性,从而将我们的讨论与探索 / 利用困境联系起来。
Dec, 2015
本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性,在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平,并在实验中得到了验证。
Jun, 2023
折扣强化学习与函数逼近在连续任务的控制中本质上不兼容,无法通过常规优化表达,使用函数逼近时不存在最优策略。因此,我们鼓励研究者采用严格的优化方法,如最大化平均奖励,来解决连续任务的强化学习问题。
Oct, 2019
本文研究了在有限时间和与折扣因素相关的情况下,批量强化学习中价值函数和特征覆盖的硬度,并说明了即使有无限数量的数据,学习也无法进行。
Nov, 2020
本文介绍一个基于状态 - 动作对的参数设置方法,用于解决基于折扣因子进行计划的正则化的不足和缺陷,能够更好地适应数据集中状态 - 动作对之间数据数量不平衡的情况。