优先软 Q 分解用于词典式强化学习

Oct, 2023

优先软 Q 分解用于词典式强化学习

Prioritized Soft Q-Decomposition for Lexicographic Reinforcement Learning

Finn Rietz, Stefan Heinrich, Erik Schaffernicht, Johannes Andreas Stork

TL;DR通过在连续空间的基础上处理优先级子任务，我们提出了一种用于学习和调整子任务解决方案的新算法 PSQD，允许重复使用先前学到的子任务解决方案，并通过融合和调整来满足任务优先级约束。

Abstract

reinforcement learning (RL) for complex tasks remains a challenge, primarily due to the difficulties of engineering scalar reward functions and the inherent inefficiency of training models from scratch. Instead,

reinforcement learning complex tasks subtask solutions lexicographic priorities adaptation

发现论文，激发创造

用于深度多智能体强化学习的 Q 值路径分解

本论文提出一种名为 Q-value Path Decomposition（QPD）的方法，该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解，以便为代理分配信用，解决了多智能体信用分配的关键挑战，该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。

Feb, 2020

可验证和组合的强化学习系统

提出了一种可验证和组合强化学习的框架，其中包含一组学习单独子任务的子系统，并填充入标准任务的高层模型，将各个子任务组合成全部任务，成功证明了该框架的实用性和有效性。

Jun, 2021

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

基于向量量化模型的分层仿真学习

本文提出使用强化学习来识别专家轨迹中的子目标，从而构建一个向量量化生成模型，以进行子目标级别的规划，并在复杂的长期决策问题上表现出色，优于现有技术。

Jan, 2023

软分解策略评论者：弥合连续控制与离散 RL 的差距

这篇论文介绍了 SDPC 架构，它将软强化学习和演员 - 评论家技术与离散强化学习方法相结合，以克服连续控制问题的挑战，实现了在多个连续控制任务中优于当前最先进的方法的表现。

Aug, 2023

基于深度强化学习的分层任务分解：拾取和放置子任务

提出一种多子任务增强学习的方法，将复杂的拾取和放置任务分解为低级子任务，并通过 DRL 方法学习，然后高级协调员将训练好的子任务组合来完成拾取和放置任务，此方法在样本效率方面表现优于以 LfD 为基础的基准方法，并在实际机器人系统中展示了鲁棒的抓握能力。

Feb, 2021

MAXQ 值函数分解的层次强化学习

该论文提出了基于 MAXQ 方法的分层强化学习，该方法通过将目标 MDP 分解为较小的 MDP 层次结构，并将目标 MDP 的值函数分解为较小 MDP 的值函数的加性组合来进行操作。同时，该论文引入了五个条件以安全地使用状态抽象。此外，该论文提出了一种新的在线无模型学习算法，MAXQ-Q，证明了其即使在存在五种状态抽象的情况下，该算法收敛于本地最优策略。实验结果表明，使用状态抽象的 MAXQ-Q 比平面 Q 学习更快地收敛于递归最优策略，并通过实验证明了该非分层执行的有效性。

May, 1999

基于非负矩阵分解的分层子任务发现

提出一种基于 MLMDP 框架的新算法，使用非负矩阵分解来发现领域中的最小任务基础集，该技术学习了各种领域的直观任务分解，包括具有单个目标状态和分布式首选状态的子任务，并具有不同的层次分解结构，同时可以简单地迭代以获得更深的层次分解。

Aug, 2017

PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer

提出一种用于离线强化学习的分层规划器 PlanDQ，其中包括高层的扩散式规划器 D-Conductor，用于指导低层策略实现子目标，并采用 Q-learning 的方法 Q-Performer 来完成这些子目标，实验结果表明 PlanDQ 在 D4RL 连续控制基准任务以及 AntMaze、Kitchen 和 Calvin 等长时间跨度任务上实现了优越或有竞争力的性能。

Jun, 2024

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

May, 2023