Jul, 2023

可证明高效的迭代CVaR强化学习与函数逼近

TL;DR使用线性和一般函数逼近,对风险敏感的强化学习(RL)进行了研究,提出了名为ICVaR-RL的新的风险敏感RL公式,为每个决策步骤提供了保证安全性的原则方法,并提出了ICVaR-L和ICVaR-G两个高效算法,以及对CVaR算子的高效逼近,适应CVaR的特征的新的岭回归,以及精炼的椭球潜力引理。