逻辑回归 Q-Learning

Oct, 2020

Logistic Q-Learning

Joan Bas-Serrano, Sebastian Curi, Andreas Krause, Gergely Neu

TL;DR本研究提出了一种基于正则化线性规划的强化学习算法 QREPS，相对于相似的 REPS 算法增加了 Q - 函数来实现无模型训练，并提供了一种策略评估的凸损失函数来替代传统的平方 Bellman 误差，同时提供了一种实用的最小化损失函数的鞍点优化方法，最终证明了我们算法在一些基准问题上的有效性。

Abstract

We propose a new reinforcement learning algorithm derived from a regularized linear-programming formulation of optimal control in mdps. Th

reinforcement learning optimal control mdps q-function convex loss function

发现论文，激发创造

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

在线目标 Q 学习与倒置经验回放：高效找到线性 MDP 的最优策略

本文研究了在强化学习中常用的 Q-learning 算法，在理论和实践之间的差距，并提出了两种改进方法，分别为 Q-Rex 和 Q-RexDaRe，这两个方法能够更有效地找到线性马尔科夫决策过程的最佳策略并提供了采样复杂度的非渐近界限。

Oct, 2021

具有深度能量策略的强化学习

提出了一种学习连续状态和动作表达性能量策略的方法，其中软 Q 学习表达了最佳策略，该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验，证实了该算法的改进探索和组合性，它允许在任务之间转移技能，并且与演员 - 评论员方法存在联系，可以视为对相应能量模型进行近似推断。

Feb, 2017

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

随机原始对偶 Q 学习

本文介绍了一种新的基于模型且离线的强化学习算法，叫做随机原始 - 对偶 Q 学习，它能够通过任意行为策略的状态 - 动作观察来寻找接近最优策略，并且与标准的 Q 学习相比展现了更好的离线学习能力。

Oct, 2018

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

离线增强学习与在线策略 Q 函数规范化

提出了两种算法，利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在 D4RL 基准测试中表现出良好的性能。

Jul, 2023

具有熵正则化的竞争性游戏的快速策略外推方法

本文研究了竞争性游戏的均衡计算问题，提出了一种通过熵正则化实现的解法，可以在线性速率下找到量子反应均衡，并且可以实现分散式迭代更新，同时还可以在亚线性速率下找到非正则矩阵博弈的纳什均衡和解决零和 MDP。

May, 2021

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022