Feb, 2022

神经渐进对冲:用随机规划在强化学习中强制执行约束

TL;DR本文提出了一种名为神经渐进对冲的框架,该框架在强化学习策略执行的在线阶段利用随机规划来确保对约束和风险为基础的目标的可行性,特别适用于序列资源分配问题等一些无法可扩展地强制执行常见资源约束条件的问题,实验证明该框架比起深度强化学习和其他基线方法更好地适应非平稳状态分布和约束条件,并具有易于实现和解释政策的优点。