强化学习中折扣因子的再思考：决策论方法

AAAIFeb, 2019

强化学习中折扣因子的再思考：决策论方法

Rethinking the Discount Factor in Reinforcement Learning: A Decision Theoretic Approach

Silviu Pitis

TL;DR本篇论文通过引入可变的折扣因子，建立起广泛适用的序列决策模型，并构建了统一的强化学习、逆强化学习和基于偏好的强化学习模型，这一模型囊括了传统模型的所有情况，同时展现出更高的泛化能力。

Abstract

reinforcement learning (RL) agents have traditionally been tasked with maximizing the value function of a markov decision process (MDP), either in continuous settings, with fixed discount factor $\gamma < 1$, or

reinforcement learning markov decision process discounting optimal policy utility

发现论文，激发创造

多时间跨度的双曲折扣与学习

本文研究强化学习的折扣问题，提出一种基于双曲贴现的 RL 代理，该代理简单有效且符合实验结果；同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。

Feb, 2019

折扣因子作为增强学习中的正则化器

本文研究了强化学习算法中的折扣因子对提高性能的影响，并通过实验证明了折扣因子可以作为正则化项，对可用数据的大小、分布和混合率等性质有明显影响。

Jul, 2020

折现因子的泰勒展开

本研究探讨了在实际强化学习中，用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响，并发现了一族目标，可以插值两个不同贴现因子的价值函数。实验表明，使用这种框架可以提高价值函数的估计效果和策略优化更新效果，并且还提供了新的深度强化学习启发式修改策略优化算法的见解。

Jun, 2021

风险敏感马尔可夫决策过程与普遍效用函数下的学习

在实践中，决策者经常面临着不同的风险偏好和不确定性的情况，传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法，并设计了可实现的近似算法来求解该问题。

Nov, 2023

延迟几何折扣：强化学习的另一种准则

通过推广折扣问题的公式，使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题，并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。

Sep, 2022

如何折扣深度强化学习：走向新的动态策略

本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时，我们探讨了折扣因子在深度 Q 网络（DQN）学习过程中所起的作用，实验结果表明在逐渐增加折扣因子值的情况下，可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时，其在多项实验中均优于原始 DQN，并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来，同时描述了在学习过程中可能陷入局部最优解的可能性，从而将我们的讨论与探索 / 利用困境联系起来。

Dec, 2015

利用强化学习在多智能体马尔科夫决策过程中实现公平

本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性，在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平，并在实验中得到了验证。

Jun, 2023

折扣强化学习不是优化问题

折扣强化学习与函数逼近在连续任务的控制中本质上不兼容，无法通过常规优化表达，使用函数逼近时不存在最优策略。因此，我们鼓励研究者采用严格的优化方法，如最大化平均奖励，来解决连续任务的强化学习问题。

Oct, 2019

针对折扣设置的 Wang-Foster-Kakade 下限变形

本文研究了在有限时间和与折扣因素相关的情况下，批量强化学习中价值函数和特征覆盖的硬度，并说明了即使有无限数量的数据，学习也无法进行。

Nov, 2020

折扣正则化的意外后果：提高确定性等价强化学习中的正则化

本文介绍一个基于状态 - 动作对的参数设置方法，用于解决基于折扣因子进行计划的正则化的不足和缺陷，能够更好地适应数据集中状态 - 动作对之间数据数量不平衡的情况。

Jun, 2023