Nov, 2022

基于分位数约束的强化学习:约束失效概率的强化学习框架

TL;DR本文提出了一种框架,名为Quantile Constrained RL (QCRL),用于约束累积成本总和的分布分位数,并利用LDP来估计QCPO中的分位数和尾概率。