本文提出了一种名为 Quantile-Based Policy Optimization(QPO)的 RL 算法,与原有算法相比在 quantile 目标的情况下表现更好,算法使用神经网络对策略进行参数化,同时使用两个相互耦合的迭代来估计量位和策略参数。
Jan, 2022
在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimization(QPPO)算法来解决深度强化学习问题,实验结果表明该方法在分位数优化指标下优于现有基准算法。
May, 2023
本文采用基于 QP(Quadratic Programs)的方法,取代采用 DNN 的方法来学习 RL 中的价值函数和策略,以此提高其可解释性和简化结构,并且给出了调整可解释性和简化结构的方法。
May, 2022
该研究针对强化学习参数的设计空间进行了设计空间探索,提出了基于自动调谐器的序数回归方法,可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。
Mar, 2023
我们提出了一个基于强化学习的算法,用于量子近似优化算法(QAOA)内的量子反馈控制,能够基于局部信息选择控制参数,并实现了训练数据的小样本转移学习。
Apr, 2020
通过使用参数化模型预测控制器作为策略并利用所需参数的少量,我们提出了一种带有超线性收敛率的限制拟牛顿训练算法进行策略优化。通过解线性方程组的解来计算所需的二阶导数信息。模拟研究表明,所提出的训练算法在数据效率和准确性方面优于其他算法。
May, 2024
我们提供了一个新的算法,可以在没有依赖于两点梯度估计的情况下,在大约 1/ε 个函数评估内确保 ε- 最优性,适用于具有未知参数的折扣离散时间 LQR 问题。
Apr, 2024
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同,Q - 梯度下降可以结合任何目标统计量,通过变化动作,我们可以深入了解成功的神经网络优化的学习率调整策略。
Feb, 2016
提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法,并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达 55%,运行时复杂度可以减少高达 50%,并验证了理论分析中的假设。
Feb, 2024
本文提出了一种基于量子启发式算法 + 强化学习的方法,在解决 Ising 能量最小化问题方面,该方法通过调整其中一个参数以改进最近看到的解,并使用一种新的 Rescaled Rank Reward (R3) 方法来提高稳定的自我博弈训练效果。训练后可在任何问题实例中采样高质量的解,并优于基线启发式和黑盒超参数优化方法。
Feb, 2020