基于 QP 和 MPC 的强化学习之间的桥梁
本文提出了一种新的参数化控制器,借鉴了模型预测控制(Model Predictive Control)的思想。这些控制器采用与线性模型预测控制类似的二次规划结构,通过学习问题参数而不是从模型中导出。该方法可能解决深度强化学习中常见学习控制器(如多层感知器架构)在解释性和性能保证方面的局限性。学习到的控制器不仅具有与模型预测控制相似的可验证特性,如持续可行性和渐近稳定性,而且在控制性能上与模型预测控制和多层感知器控制器达到了相当的经验证明,与模型预测控制相比,在实施上更具计算效率,并且比多层感知器控制器需要更少的可学习策略参数。通过展示车辆漂移操纵任务的实际应用,展示了这些控制器在实际场景中的潜力。
Dec, 2023
本文提出了一种名为 Quantile-Based Policy Optimization(QPO)的 RL 算法,与原有算法相比在 quantile 目标的情况下表现更好,算法使用神经网络对策略进行参数化,同时使用两个相互耦合的迭代来估计量位和策略参数。
Jan, 2022
提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法,并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达 55%,运行时复杂度可以减少高达 50%,并验证了理论分析中的假设。
Feb, 2024
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimization(QPPO)算法来解决深度强化学习问题,实验结果表明该方法在分位数优化指标下优于现有基准算法。
May, 2023
基于经验证据,本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型,研究了该模型在经典控制基准环境中的性能和可训练性,探讨了数据重新上传对这些指标的影响,并发现 VQC 在这种环境中具有适用性,且在逼近 2 设计时,增加量子比特数不会导致梯度的幅度和方差指数级递减。
Jan, 2024
人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法,利用可微的世界模型,对比了其他基于 MPC 的方法和基于策略的算法,并在大多数任务中,在具有样本效率的设定下,实现了与其他方法相媲美甚至更好的性能。此外,引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型,优于纯粹的基于策略的方法,这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。
Dec, 2023
本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题,提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法,并使用方差抑制技术解决了采样带来的误差问题,试验结果表明在具有多种负载条件的系统中,该算法可以生成优于现有启发式方法的控制策略,甚至可以获得接近于最优的结果。
Jul, 2020