基于 QP 和 MPC 的强化学习之间的桥梁

May, 2022

基于 QP 和 MPC 的强化学习之间的桥梁

Bridging the gap between QP-based and MPC-based RL

Shambhuraj Sawant, Sebastien Gros

TL;DR本文采用基于 QP（Quadratic Programs）的方法，取代采用 DNN 的方法来学习 RL 中的价值函数和策略，以此提高其可解释性和简化结构，并且给出了调整可解释性和简化结构的方法。

Abstract

reinforcement learning methods typically use deep neural networks to approximate the value functions and policies underlying a Markov Decision Process. Unfortunately, DNN-based RL suffers from a lack of

reinforcement learning deep neural networks quadratic programs linear mpc explainability

发现论文，激发创造

填补空白：受模型预测控制启发的可证实无模型二次规划控制器的学习

本文提出了一种新的参数化控制器，借鉴了模型预测控制（Model Predictive Control）的思想。这些控制器采用与线性模型预测控制类似的二次规划结构，通过学习问题参数而不是从模型中导出。该方法可能解决深度强化学习中常见学习控制器（如多层感知器架构）在解释性和性能保证方面的局限性。学习到的控制器不仅具有与模型预测控制相似的可验证特性，如持续可行性和渐近稳定性，而且在控制性能上与模型预测控制和多层感知器控制器达到了相当的经验证明，与模型预测控制相比，在实施上更具计算效率，并且比多层感知器控制器需要更少的可学习策略参数。通过展示车辆漂移操纵任务的实际应用，展示了这些控制器在实际场景中的潜力。

Dec, 2023

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

基于分位数的强化学习策略优化

本文提出了一种名为 Quantile-Based Policy Optimization（QPO）的 RL 算法，与原有算法相比在 quantile 目标的情况下表现更好，算法使用神经网络对策略进行参数化，同时使用两个相互耦合的迭代来估计量位和策略参数。

Jan, 2022

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

May, 2023

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

基于 VQC 的数据重上传强化学习：性能和可训练性

基于经验证据，本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型，研究了该模型在经典控制基准环境中的性能和可训练性，探讨了数据重新上传对这些指标的影响，并发现 VQC 在这种环境中具有适用性，且在逼近 2 设计时，增加量子比特数不会导致梯度的幅度和方差指数级递减。

Jan, 2024

基于梯度的世界模型规划

人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法，利用可微的世界模型，对比了其他基于 MPC 的方法和基于策略的算法，并在大多数任务中，在具有样本效率的设定下，实现了与其他方法相媲美甚至更好的性能。此外，引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型，优于纯粹的基于策略的方法，这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。

Dec, 2023

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020