使用对数映射在强化学习中实现较低的折扣因子

Jun, 2019

使用对数映射在强化学习中实现较低的折扣因子

Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning

Harm van Seijen, Mehdi Fatemi, Arash Tavakoli

TL;DR通过一系列的实验，揭示了常见的低折扣系数的表现差距不是由于过小的动作差异引起的，提出了一个新的假设，认为状态空间中动作差异的大小差异才是主要原因。然后引入了一种新的方法，通过将值估计映射到对数空间来实现更加均匀的动作差异。在标准假设下证明了该方法的收敛性，并证明了这确实使得近似强化学习方法可降低折扣系数，从而解决了传统方法难以解决的一类强化学习问题。

Abstract

In an effort to better understand the different ways in which the discount factor affects the optimization process in reinforcement learning, we designed a set of experiments to study each effect in isolation. Our analysis reveals that the common perception that poor performance of low

discount factor reinforcement learning action-gap value estimates convergence

发现论文，激发创造

折现因子的泰勒展开

本研究探讨了在实际强化学习中，用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响，并发现了一族目标，可以插值两个不同贴现因子的价值函数。实验表明，使用这种框架可以提高价值函数的估计效果和策略优化更新效果，并且还提供了新的深度强化学习启发式修改策略优化算法的见解。

Jun, 2021

强化学习中折扣因子的再思考：决策论方法

本篇论文通过引入可变的折扣因子，建立起广泛适用的序列决策模型，并构建了统一的强化学习、逆强化学习和基于偏好的强化学习模型，这一模型囊括了传统模型的所有情况，同时展现出更高的泛化能力。

Feb, 2019

具有特征映射的折扣 MDP 的可证明高效强化学习

本论文介绍了一种基于特性映射的新算法，能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间，并且证明了该算法在一些强化学习的问题中，不需要访问生成模型就能取得多项式的最优后悔值，且总体上是近乎最优的。

Jun, 2020

折扣因子作为增强学习中的正则化器

本文研究了强化学习算法中的折扣因子对提高性能的影响，并通过实验证明了折扣因子可以作为正则化项，对可用数据的大小、分布和混合率等性质有明显影响。

Jul, 2020

多时间跨度的双曲折扣与学习

本文研究强化学习的折扣问题，提出一种基于双曲贴现的 RL 代理，该代理简单有效且符合实验结果；同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。

Feb, 2019

折扣正则化的意外后果：提高确定性等价强化学习中的正则化

本文介绍一个基于状态 - 动作对的参数设置方法，用于解决基于折扣因子进行计划的正则化的不足和缺陷，能够更好地适应数据集中状态 - 动作对之间数据数量不平衡的情况。

Jun, 2023

连续状态和行动空间中强化学习的几何学

使用几何镜头建立对连续状态和动作空间的理论理解，以证明可达状态的低维流形的维度最多为动作空间维度加一，并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。

Dec, 2022

随机算法与 PAC 界限在连续空间逆向强化学习中的应用

该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程，并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况，并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性，引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题，并对其性质进行了深入分析。其次，采用线性函数逼近器和随机化方法，即场景方法和相关的概率可行性保证，为逆问题提供了 ε- 最优解。对于所需的近似精度，进一步讨论了样本复杂度。最后，针对只有有限一组专家示范和生成模型可供使用的更加现实的情况，给出了使用样本时产生的误差界限。

May, 2024

具有恒定子最优性差异的可线性实现 MDPs 的指数下界

本研究讨论在线强化学习问题，探讨了是否能够通过加入一个常数子优性差值的假设来实现有效学习，结果发现即使假设线性实现了最优 Q 函数，仍然需要指数级别的样本量，进一步证明在线学习和生成模型学习之间存在指数差距。

Mar, 2021

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022