基于分位数约束的强化学习:约束失效概率的强化学习框架
本文提出了一种名为 Quantile-Based Policy Optimization(QPO)的 RL 算法,与原有算法相比在 quantile 目标的情况下表现更好,算法使用神经网络对策略进行参数化,同时使用两个相互耦合的迭代来估计量位和策略参数。
Jan, 2022
在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimization(QPPO)算法来解决深度强化学习问题,实验结果表明该方法在分位数优化指标下优于现有基准算法。
May, 2023
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
本文研究利用概率风险约束的马尔可夫决策过程,通过计算梯度并设计算法实现了局部最优策略,解决了累积成本最小化的顺序决策问题,例子包括最优停止问题和在线营销应用。
Dec, 2015
本文提出了一种名为 CPPO 的新型一阶可行方法,将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布,并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略,解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证,该方法的有效性至少与其他基线方法一样。
May, 2023
我们提出了一种新的约束强化学习方法,通过在学习目标中引入放松成本来适应放松约束,以实现对策略和约束规格的联合搜索,然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化,最后通过计算实验来证明我们方法的优点和有效性。
Dec, 2023
本研究探讨了在仅使用离线数据的情况下学习最大化长期收益的策略,同时满足安全性约束的安全离线强化学习问题,提出了基于约束惩罚的 Q 学习算法来解决该问题,并且在多个基准任务中进行了实验验证,表明该算法在数据效率和性能方面都优于其他基线算法。
Jul, 2021
本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。
Oct, 2021
本文研究分布强化学习中的分位回归,证明 Cram´er 距离得到的投影与 1-Wasserstein 距离的投影相同,并提出了一种低复杂度算法来计算 Cram´er 距离,在非交叉限制下,squared Cram´er 和分位回归损失具有共线性,从而揭示了分布强化学习中相关要素之间的联系。
Oct, 2021
本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用,提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt,成功应用于视觉机器人夹取任务,并探究了其风险扭曲函数,同时采用批量强化学习算法进行实验,与以往变量离散的实验结果对比,结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。
Oct, 2019