Jun, 2024

基于极值理论的大灾风险感知强化学习

TL;DR在顺序决策过程中,解决减轻灾难性风险的问题,通过基于极值理论的尾风险近似导出的一种政策梯度算法 (POTPG),在金融风险管理中的动态对冲金融期权中得到了良好的实验表现。