Apr, 2024

非平稳分布下的风险规避学习

TL;DR本文研究在线优化中的非稳态环境,以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略,使用条件风险价值 (CVaR) 作为风险度量,并使用零阶优化方法来估计 CVaR 梯度。理论结果表明,我们设计的学习算法在凸和强凸函数上能够以高概率实现子线性动态遗憾。同时,数值实验在停车场动态定价方面展示了所设计算法的有效性。