Oracle 高效最大值集成强化学习

May, 2024

Oracle-Efficient Reinforcement Learning for Max Value Ensembles

Marcel Hussing, Michael Kearns, Aaron Roth, Sikata Bela Sengupta, Jessica Sorrell

TL;DR通过可伸缩方法进行策略改进的学习算法，仅使用成分策略而非其价值函数来与最优策略竞争，并展示其实验有效性和行为特性。

Abstract

reinforcement learning (RL) in large or infinite state spaces is notoriously challenging, both theoretically (where worst-case sample and computational complexities must scale with state space cardinality) and experimentally (where function approximation and policy gradient techniques

reinforcement learning large state spaces policy improvement value function approximation algorithm

发现论文，激发创造

具有深度能量策略的强化学习

提出了一种学习连续状态和动作表达性能量策略的方法，其中软 Q 学习表达了最佳策略，该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验，证实了该算法的改进探索和组合性，它允许在任务之间转移技能，并且与演员 - 评论员方法存在联系，可以视为对相应能量模型进行近似推断。

Feb, 2017

稀缺经验学习

使用似然比估计的一族算法在估计和优化阶段利用经验数据来优化策略，从而更高效地解决部分可观察的强化学习问题，该算法在实验中表现良好。

Apr, 2002

Exploiter 的威力：在大状态空间下可证明的多智能体强化学习

本文提出了一个新算法，能够有效地应用于大量状态空间问题中的多智能体强化学习，以寻找具有低复杂度的多代理贝尔曼 - 伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。

Jun, 2021

通过基于能量的标准化流进行最大熵强化学习

我们引入了一种基于能量的正则化流（EBFlow）建模的新的最大熵强化学习框架，该框架集成了策略评估步骤和策略改进步骤，实现了单一的目标训练过程，并且能够计算用于策略评估目标的软值函数，同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估，结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。

May, 2024

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题

该论文证明了最大熵（MaxEnt）强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略，是一种简单并具有吸引力形式保证的鲁棒强化学习方法。

Mar, 2021

改进的分布式鲁棒强化学习样本复杂度界限

本文提出了一种分布式抗干扰强化学习算法，即 Robust Phased Value Learning 算法，该算法针对四种不同的差距度量指标的不确定性集合进行求解，得到的结果在样本复杂度方面比现有结果具有更好的一致性。

Mar, 2023

线性复合模型集合在强化学习中的样本复杂度

本研究提出一种强化学习算法，使用一组预先训练的不准确模拟器的状态依赖线性组合来逼近真实环境，并且在未知参数数量的多项式样本复杂度下，无需状态空间或动作空间大小的限制下可获得近似最优策略，同时还讨论了模型选择时的困难情况并提供了一种经过证明的有效算法。

Oct, 2019

通用效用的强化学习：更简单的方差缩减和大状态行动空间

我们提出了一种更简单的单循环，无参数归一化策略梯度算法，用于解决具有一般效用的强化学习问题，其中包括约束强化学习，纯探索以及从演示中学习等问题，同时通过线性函数逼近解决大状态 - 动作空间的设置，并展示了简单的策略梯度法的样本复杂度。

Jun, 2023

基于丰富观测的 PAC 强化学习

本研究提出一种新的强化学习模型，将上下文逐步演化到顺序决策制定，通过分析最小二乘值淘汰算法表明，在某些特定情形，强化学习方法的范数较优行为可以在多项式时间内学习。

Feb, 2016