延迟几何折扣：强化学习的另一种准则

Sep, 2022

延迟几何折扣：强化学习的另一种准则

Delayed Geometric Discounts: An Alternative Criterion for Reinforcement Learning

Firas Jarboui, Ahmed Akakzia

TL;DR通过推广折扣问题的公式，使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题，并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。

Abstract

The endeavor of artificial intelligence (AI) is to design autonomous agents capable of achieving complex tasks. Namely, reinforcement learning (RL) proposes a theoretical background to learn optimal behaviors. In

artificial intelligence reinforcement learning delayed objective functions exploration mechanisms sample-efficiency

发现论文，激发创造

折扣强化学习不是优化问题

折扣强化学习与函数逼近在连续任务的控制中本质上不兼容，无法通过常规优化表达，使用函数逼近时不存在最优策略。因此，我们鼓励研究者采用严格的优化方法，如最大化平均奖励，来解决连续任务的强化学习问题。

Oct, 2019

多时间跨度的双曲折扣与学习

本文研究强化学习的折扣问题，提出一种基于双曲贴现的 RL 代理，该代理简单有效且符合实验结果；同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。

Feb, 2019

强化学习中折扣因子的再思考：决策论方法

本篇论文通过引入可变的折扣因子，建立起广泛适用的序列决策模型，并构建了统一的强化学习、逆强化学习和基于偏好的强化学习模型，这一模型囊括了传统模型的所有情况，同时展现出更高的泛化能力。

Feb, 2019

折现因子的泰勒展开

本研究探讨了在实际强化学习中，用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响，并发现了一族目标，可以插值两个不同贴现因子的价值函数。实验表明，使用这种框架可以提高价值函数的估计效果和策略优化更新效果，并且还提供了新的深度强化学习启发式修改策略优化算法的见解。

Jun, 2021

如何折扣深度强化学习：走向新的动态策略

本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时，我们探讨了折扣因子在深度 Q 网络（DQN）学习过程中所起的作用，实验结果表明在逐渐增加折扣因子值的情况下，可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时，其在多项实验中均优于原始 DQN，并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来，同时描述了在学习过程中可能陷入局部最优解的可能性，从而将我们的讨论与探索 / 利用困境联系起来。

Dec, 2015

使用平均和折扣奖励的多目标（深度）强化学习中学习公平策略

研究了如何在自主系统操作中考虑公平性，并提出一种基于深度强化学习的公平策略学习框架，应用于多个领域中，包括折扣回报和平均回报算法。

Aug, 2020

折扣因子作为增强学习中的正则化器

本文研究了强化学习算法中的折扣因子对提高性能的影响，并通过实验证明了折扣因子可以作为正则化项，对可用数据的大小、分布和混合率等性质有明显影响。

Jul, 2020

离散阶乘表示作为目标条件强化学习的抽象

提出了一种称为 DGRL 的方法，该方法通过学习目标的阶乘表示，并通过离散化瓶颈进行处理，以更粗略的目标规范来解决在噪声和高维度输入空间中定义目标的挑战；实验证明应用离散化瓶颈可以提高目标条件下的 RL 设置的性能。

Nov, 2022

延迟随机环境中的控制：基于模型的强化学习方法

本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法，该方法采用了随机规划而非以前使用的确定性规划方法，从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略，并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点，然后比较了这些方法在控制多个 Atari 游戏方面的性能。

Feb, 2024

快速学习的奖励设计

研究如何选择奖励函数以提高强化学习的学习速度，提出基于状态的奖励设计原则，并提出线性规划算法以最大化行动差距和最小化主观贴现；通过在表格环境中使用 Q 学习算法进行实验，表明设计奖励遵循一定的原则，如逐步增加接近目标奖励，可以加速学习。

May, 2022