多时间跨度的双曲折扣与学习

Feb, 2019

Hyperbolic Discounting and Learning over Multiple Horizons

William Fedus, Carles Gelada, Yoshua Bengio, Marc G. Bellemare, Hugo Larochelle

TL;DR本文研究强化学习的折扣问题，提出一种基于双曲贴现的 RL 代理，该代理简单有效且符合实验结果；同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。

Abstract

reinforcement learning (RL) typically defines a discount factor as part of the Markov Decision Process. The discount factor values future

reinforcement learning discount factor hyperbolic time-preferences temporal-difference learning value-based rl agent

发现论文，激发创造

折现因子的泰勒展开

本研究探讨了在实际强化学习中，用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响，并发现了一族目标，可以插值两个不同贴现因子的价值函数。实验表明，使用这种框架可以提高价值函数的估计效果和策略优化更新效果，并且还提供了新的深度强化学习启发式修改策略优化算法的见解。

Jun, 2021

强化学习中折扣因子的再思考：决策论方法

本篇论文通过引入可变的折扣因子，建立起广泛适用的序列决策模型，并构建了统一的强化学习、逆强化学习和基于偏好的强化学习模型，这一模型囊括了传统模型的所有情况，同时展现出更高的泛化能力。

Feb, 2019

折扣因子作为增强学习中的正则化器

本文研究了强化学习算法中的折扣因子对提高性能的影响，并通过实验证明了折扣因子可以作为正则化项，对可用数据的大小、分布和混合率等性质有明显影响。

Jul, 2020

延迟几何折扣：强化学习的另一种准则

通过推广折扣问题的公式，使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题，并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。

Sep, 2022

如何折扣深度强化学习：走向新的动态策略

本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时，我们探讨了折扣因子在深度 Q 网络（DQN）学习过程中所起的作用，实验结果表明在逐渐增加折扣因子值的情况下，可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时，其在多项实验中均优于原始 DQN，并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来，同时描述了在学习过程中可能陷入局部最优解的可能性，从而将我们的讨论与探索 / 利用困境联系起来。

Dec, 2015

跨时间尺度分离价值函数

本文提出的 TD（Delta）算法是一种针对有限 horizon episodic reinforcement learning（RL）的 value function approximator，通过将长时间 horizon 的值函数划分为 components 以解决标准 TD 学习中的缺陷。

Feb, 2019

双曲深度强化学习

本文提出了一种新的深度强化学习算法类，其中建模超螺旋空间中的潜在表示。通过使用超螺旋几何提供深度强化学习模型以精确编码本质上分层的信息，借此进行任务相关的关键演化特征的关系捕捉。然而，现有方法中的优化稳定性问题导致 RL 梯度估计器的非稳态和方差性，本文通过设计了一种新的通用方法来解决这些问题并实现深度超螺旋表示的稳定端到端学习，并在 Procgen 和 Atari 100K benchmarks 上验证了该框架的有效性。

Oct, 2022

策略逻辑中的折扣

本文将未来折扣引入策略逻辑中，并研究了 SLdisc [D]-formula 的模型检查。

May, 2023

超越指数衰减求和：自动学习回报函数

本文研究如何改变回报函数的形式来增强学习最优策略，提出使用通用数学形式的回报函数，并通过元学习来以端到端的方式学习最优回报函数，在迷宫环境和多个 Atari 游戏上进行测试，实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。

May, 2019

基于折扣线性时态逻辑的政策综合和强化学习

通过降低时间折扣，将 LTL 适用于 RL 并在 Markov 决策过程中综合策略，以解决小扰动敏感性问题。

May, 2023