神经渐进对冲：用随机规划在强化学习中强制执行约束

Feb, 2022

神经渐进对冲：用随机规划在强化学习中强制执行约束

Neural-Progressive Hedging: Enforcing Constraints in Reinforcement Learning with Stochastic Programming

Supriyo Ghosh, Laura Wynter, Shiau Hong Lim, Duc Thien Nguyen

TL;DR本文提出了一种名为神经渐进对冲的框架，该框架在强化学习策略执行的在线阶段利用随机规划来确保对约束和风险为基础的目标的可行性，特别适用于序列资源分配问题等一些无法可扩展地强制执行常见资源约束条件的问题，实验证明该框架比起深度强化学习和其他基线方法更好地适应非平稳状态分布和约束条件，并具有易于实现和解释政策的优点。

Abstract

We propose a framework, called neural-progressive hedging (NP), that leverages stochastic programming during the online phase of executing a rein

neural-progressive hedging stochastic programming reinforcement learning resource allocation risk-based objectives

发现论文，激发创造

深度对冲

本论文提出了一个通过深度强化学习方法，对具有市场摩擦因素（如交易成本、市场反应、流动性约束或风险限制）的衍生产品组合进行避险的框架，在非线性收益结构（如凸风险度量）中应用标准强化学习方法的详细讨论。

Feb, 2018

通过反向价值函数的约束马尔可夫决策过程

本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题，该算法将成本累加约束转化为基于状态的约束，并确保代理在训练过程中满足这些约束，同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版 MuJoCo 环境中表现出色。

Aug, 2020

使用强化学习的受限组合优化

本文提出一个深度强化学习的框架来解决受限的组合优化问题，将受约束的组合问题定义为完全可观的受约束马尔可夫决策过程（CMDP），并提出从不满足的约束产生惩罚信号，以推断作为启发式算法的策略。通过对约束工厂和资源分配问题进行的实验表明，本文的提议对于比较经典的启发式算法、元启发式算法和约束编程（CP）求解器来说，能更快地求得答案。

Jun, 2020

强化学习中带任意约束的随机动作的生成建模

通过应用条件正则流来紧凑表示随机策略，并采用无效行为拒绝方法更新基础策略，我们解决了离散多维，无序的大型动作空间中的优化策略问题，实验表明我们的方法具有较好的可扩展性和对任意状态下行为分布的条件限制的能力。

Nov, 2023

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

学习神经网络转移模型的规划奖励潜力

使用有限时间约束生成算法，将基于神经网络的观察到学习和规划过程中的潜在奖励函数上界计算建立为二层规划问题，并通过提前计算奖励潜力来强化混合整数线性规划模型的线性松弛度，以在长期视野下有效计算奖励潜力。

Apr, 2019

针对网络物理系统和机器人系统的随机在线优化

我们提出了一种新颖的基于梯度的在线优化框架，用于解决在网络物理和机器人系统中经常出现的随机规划问题。我们的问题形式化考虑了模拟网络物理系统的约束条件，该系统通常具有连续的状态和动作空间，是非线性的，并且状态只被部分观测到。我们还在学习过程中将动力学的近似模型作为先验知识纳入其中，并表明即使是动力学的粗略估计也能显着改善算法的收敛性。我们的在线优化框架包括梯度下降和拟牛顿方法，并在非凸环境中对我们的算法进行了统一的收敛性分析。我们还研究了系统动力学建模误差对算法收敛速度的影响。最后，我们在柔性梁、四足行走机器人的仿真和乒乓球机器人的实际实验中评估了我们的算法。

Apr, 2024

通过强化学习在动态投资组合优化中进行投资限制和非稳态的因果推断

使用强化学习技术，我们研究了一种动态资产配置投资策略，并解决了将金融时间序列数据的非平稳性纳入强化学习算法的关键问题，以提高预测精度。我们发现引入环境设置中的变量，如制度变化，对于增强预测准确性至关重要。此外，强化学习在投资策略中的应用具有灵活解决优化问题的显著优势，能够将投资者面临的实际限制整合到算法中，实现高效优化。我们将投资策略制定条件分为三个主要类别，包括绩效衡量指标、投资组合管理规则和其他约束条件，并在强化学习框架中评估了将这些条件纳入环境和奖励函数对投资行为的影响。

Nov, 2023

安全关键强化学习的概率约束

本文探讨了在概率受限制的强化学习中学习安全策略的问题，并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验，验证了这些方法的有效性和优越性。

Jun, 2023

结合强化学习和约束编程用于组合优化

本文介绍了一种基于深度强化学习和约束编程的混合算法，应用于复杂的组合优化问题，并在实验中成功运用于旅行商问题和投资组合优化问题，表现优于单独的深度强化学习和约束编程算法，同时也达到了与工业级求解器相竞争的水平。

Jun, 2020