Nov, 2022

基于分位数约束的强化学习:约束失效概率的强化学习框架

TL;DR本文提出了一种框架,名为 Quantile Constrained RL (QCRL),用于约束累积成本总和的分布分位数,并利用 LDP 来估计 QCPO 中的分位数和尾概率。