条件风险下的统计学习
基于条件期望的公式,我们提出了一种新的基于采样的 CVaR 梯度估计器,类似于似然比方法。我们分析了估计器的偏差,并证明了相应随机梯度下降算法的收敛性,使 CVaR 优化可以在新的领域应用。例如,我们考虑一个强化学习应用,为 Tetris 游戏学习风险敏感的控制器。
Apr, 2014
在机器学习应用中,我们提出了一种风险规避的训练模型的方法,它通过优化在最难的样本上的表现来提高模型的稳定性和可预测性,关键是利用分布式随机优化算法和结构化行列式点过程进行大规模的学习任务。
Oct, 2019
本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题,并提出了策略梯度和演员评论算法,以在局部风险敏感的最优策略中更新策略参数,解决了一个最优停止问题。
Jun, 2014
本文研究在线优化中的非稳态环境,以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略,使用条件风险价值 (CVaR) 作为风险度量,并使用零阶优化方法来估计 CVaR 梯度。理论结果表明,我们设计的学习算法在凸和强凸函数上能够以高概率实现子线性动态遗憾。同时,数值实验在停车场动态定价方面展示了所设计算法的有效性。
Apr, 2024
我们提出了一种随机近端线性方法的变体,用于最小化条件风险价值(CVaR)目标,该方法在机器学习中的风险测量中具有广泛应用。我们将一般的收敛定理应用于该模型,并通过实验证明,它比随机次梯度方法更好地利用了目标的结构,并且适应了损失函数的缩放,这使得调整更容易。
May, 2023
该文主要研究了基于 CVaR 和 chi-squared 分布的鲁棒优化问题,并提出了一种新的算法以及相应的优化方案。研究结果表明,该算法不仅适用于大规模应用,而且在实验中的效率比全样本方法高 9~36 倍。
Oct, 2020
以 Markov 决策过程为基础,采用面对不确定性的乐观主义原则,使用一种乐观主义的分布 Bellman 算子,将回报分布的概率质量从下尾部移动到上尾部,从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。
Nov, 2019
本文提出了一种基于条件风险价值方法的学习选项的方法,旨在处理具有不确定性的模型参数,以实现在平均和最坏情况下都能良好运作的选项,通过实验评估表明该方法在多关节机器人控制任务中获得了较好的表现。
May, 2019
使用线性和一般函数逼近,对风险敏感的强化学习(RL)进行了研究,提出了名为 ICVaR-RL 的新的风险敏感 RL 公式,为每个决策步骤提供了保证安全性的原则方法,并提出了 ICVaR-L 和 ICVaR-G 两个高效算法,以及对 CVaR 算子的高效逼近,适应 CVaR 的特征的新的岭回归,以及精炼的椭球潜力引理。
Jul, 2023
本文提出了一种基于样本计算条件风险价值 (CVaR) 的方法,通过统计方法得到了一个新的置信边界来估计 CVaR。该方法和得到的置信边界是基于量化反应的风险价值 (VaR) 估计的经验。
Aug, 2018