- 模仿过去的成功可能不是最优的选择
本文研究提出了基于结果条件的模仿学习方法与强化学习中的奖励最大化问题之间的关系,并证明了现有方法并不一定能够改善策略,但是通过一些简单的修改得到的方法可以保证策略的改进。
- 基于正则化的鲁棒马尔可夫决策过程高效策略迭代
本文通过探究 s-rectangular Lp 鲁棒 MDP 和策略正则化 MDP 的等价性,发现在 Optimal Bellman 算子中阈值策略在 top k 动作中起着重要作用,并引入了新的概念如优化和阈值。
- 多智能体 Actor-Critic 与时间动态对手模型
本文提出了一种名为 Time Dynamical Opponent Model 的新型多智能体强化学习方法,提高了智能体在协助和竞争环境中的管用性。
- 使用离线演示的指导,稀疏奖励下的强化学习
该论文中,我们提出了一种基于利用离线演示数据的算法:学习在线指导离线(LOGO),可以在稀疏奖励和不完整观测的情况下进行更快、更有效的在线强化学习,并且可以在探索阶段减少迭代次数。
- 实践中是否需要熵奖励?
本文研究熵作为内在奖励的效果,并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家(SAC)中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估,并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此,我们建 - ICLR使用广义策略更新构建迁移的良好行为基础
本文提出了一种简单有效的算法,通过构建独立的策略集合,可以在不需要大量数据的情况下,在各种复杂的强化学习任务中实现高水平的性能表现,同时解决了基于线性特征函数的多个任务的奖励子问题,并应用于终身强化学习设置中。
- ICLR强化学习中的在线策略模型误差
本文提出了一种结合模型和真实数据的方法来弥补模型误差和偏差所带来的不足,通过将真实数据作为时间相关的学习模型的修正项以维持数据生成能力并减少预测误差,从而改进了现有的基于模型的方法。在 MuJoCo 和 PyBullet 基准测试上的实验结 - 基于隐式 Q 学习的离线强化学习
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基 - 政策优化的贪婪算子:研究正向和反向 KL 散度
本论文研究了使用 KL 散度来进行策略更新的近似策略迭代算法中,正反向 KL 散度的差异及其对策略改进的影响,进一步探讨熵正则化以及使用前向和后向 KL 散度不同选择的策略改进保证,同时提出许多策略梯度方法可作为近似策略迭代算法的实例,为进 - MHER: 基于模型的事后经验回放
通过利用环境动态生成虚拟实现目标的模型相关再标记方法,本文提出了模型 (MHER)。模型同时执行强化学习和监督学习来实现高效的政策改进,通过实验在多个基点任务和模拟机器人环境中显示出比以前的 model-free 和 model-based - ICML基于策略的深度强化学习在平均回报准则下的应用
本研究针对均值回报的强化学习问题,提出了一种考虑策略改善和深度强化学习相结合的新算法 ATRPO,实验结果表明该算法在 MuJuCo 环境中不仅能够有效应对较为复杂的任务,而且在长期平均回报上的表现也优于传统算法 TRPO。
- 自监督简化深度强化学习
通过自监督回归学习策略网络,提出了一种基于监督损失函数训练深度强化学习智能体的算法 (SSRL),该算法无需策略梯度或价值估计,能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美,展示了利用监督学习技术解决强化学习问题 - 正则化行为价值估计
本文提出一种基于离线强化学习的新方法 Regularized Behavior Value Estimation (R-BVE),用于解决离线学习中过度估计值所导致的错误问题,该方法在 RL Unplugged ATARI 数据集以及其他数 - 信息导向的强化学习奖励学习
使用基于贝叶斯模型的信息导向方法进行强化学习,通过最大化不同策略间回报差异的信息增益来选择专家反馈以提高政策性能。
- COMBO: 保守的离线基于模型的策略优化
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的 - ICLR勘探的保守安全批评家
本文介绍了一种基于保守安全估计的强化学习安全探索方法,通过批判学习环境状态的保守安全估计,从理论上上界限制了灾难性失败概率,实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能,同步显著降低了灾难性失败率。
- 离线强化学习的保守型 Q 学习
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离 - 通过无关行为的发散正则化来实现稳定的政策优化
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有 - 通过正则流在无策略算法中利用探索
通过使用正则化流,将软 actor-critic(SAC)方法扩展到更丰富的概率分布类别,能够显着提高策略的探索性能,同时使用更小的策略表示,增加了参数效率。
- 模仿正则化的离线学习
本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题,提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明,该方法在无概率记录情况下比目前最先进的 CE 损失更准确,而在有概率记录的情况下,可以帮助我们