非平稳分布下的风险规避学习

Apr, 2024

Risk-averse Learning with Non-Stationary Distributions

Siyi Wang, Zifan Wang, Xinlei Yi, Michael M. Zavlanos, Karl H. Johansson...

TL;DR本文研究在线优化中的非稳态环境，以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略，使用条件风险价值 (CVaR) 作为风险度量，并使用零阶优化方法来估计 CVaR 梯度。理论结果表明，我们设计的学习算法在凸和强凸函数上能够以高概率实现子线性动态遗憾。同时，数值实验在停车场动态定价方面展示了所设计算法的有效性。

Abstract

Considering non-stationary environments in online optimization enables decision-maker to effectively adapt to changes and improve its performance over time. In such cases, it is favorable to adopt a strategy that

non-stationary environments online optimization risk-averse conditional value at risk (cvar)dynamic regret

发现论文，激发创造

条件风险下的统计学习

研究一种基于条件风险价值（CVaR）的风险规避统计学习框架，提出了基于随机梯度下降的算法。对于凸和 Lipschitz 的损失函数，该算法收敛到最优 CVaR，而对于非凸和平滑的损失函数，该算法在 CVaR 上的泛化界表现良好。通过在各种机器学习任务上进行数值实验，证明了该算法有效地将 CVaR 最小化。

Feb, 2020

随机风险厌恶学习的自适应采样

在机器学习应用中，我们提出了一种风险规避的训练模型的方法，它通过优化在最难的样本上的表现来提高模型的稳定性和可预测性，关键是利用分布式随机优化算法和结构化行列式点过程进行大规模的学习任务。

Oct, 2019

分布时变在线随机优化在条件风险价值统计学习中的应用

在本文中，我们通过在线优化的视角，考虑了一个遵循随时间变化的分布的随机优化问题序列。假设损失函数满足 Polyak-Lojasiewicz 条件，我们应用在线随机梯度下降并建立了其动态遗憾界，其中包含由随机性引起的累积分布漂移和累积梯度偏差。我们采用的分布测度是 Wasserstein 距离，它在没有绝对连续性假设或具有时变支持集时具有良好定义。我们还建立了在线随机近端梯度下降的遗憾界，当目标函数被正则化时。此外，我们展示了上述框架如何应用于条件风险价值（CVaR）学习问题。特别地，我们改进了对 CVaR 问题 PL 条件发现的现有证明，从而得到了在线随机梯度下降的遗憾界。

Sep, 2023

在 MDPs 中进行 CVaR 优化的算法

本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Jun, 2014

通过采样优化 CVaR

基于条件期望的公式，我们提出了一种新的基于采样的 CVaR 梯度估计器，类似于似然比方法。我们分析了估计器的偏差，并证明了相应随机梯度下降算法的收敛性，使 CVaR 优化可以在新的领域应用。例如，我们考虑一个强化学习应用，为 Tetris 游戏学习风险敏感的控制器。

Apr, 2014

非定态随机优化

控制变化预算的非静态顺序随机优化问题，可以实现长期平均最优性和速率最优性。对于这些问题的复杂性，我们建立了在线对抗凸优化和随机逼近范式之间的联系，并给出了最小化后悔的紧密界限，以量化非静态性的代价。

Jul, 2013

保守乐观：快速学习 CVaR 策略

以 Markov 决策过程为基础，采用面对不确定性的乐观主义原则，使用一种乐观主义的分布 Bellman 算子，将回报分布的概率质量从下尾部移动到上尾部，从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。

Nov, 2019

通过条件风险价值优化学习健壮的选项

本文提出了一种基于条件风险价值方法的学习选项的方法，旨在处理具有不确定性的模型参数，以实现在平均和最坏情况下都能良好运作的选项，通过实验评估表明该方法在多关节机器人控制任务中获得了较好的表现。

May, 2019

基于 Wasserstein 的非平稳在线随机优化

本文考虑多重预算约束下的在线随机优化问题，提出了基于 Wasserstein 距离的度量方法来量化先验假设准确性和系统的非平稳性，针对信息已知和信息未知情况下分别提出了算法，均取得了优越的性能表现。

Dec, 2020

动态环境下的在线优化：强凸问题改进遗憾率

本文提出一种基于在线梯度下降方法的动态调参算法，以降低动态遗憾（dynamic regret），进而优化强凸且未知动力学的损失函数。

Mar, 2016