提供了一种贝叶斯视角的数学方法,支持使用 logged bandit feedback 进行离线学习,提出了一种新的 generalization bound 来估算社会可接受的风险,并引入了一种新的正则化技术来避免过拟合。
Jun, 2018
本文概述了分布鲁棒优化(DRO)的主要概念和贡献,以及它与鲁棒优化、风险规避、机会约束优化和函数正则化的关系。
Aug, 2019
本文扩展了分布鲁棒优化方法,提出了 Counterfactual Risk Minimization 原则的凸重构方法,介绍了通过 DRO 框架构建离线情境强化学习的渐近置信区间,使用了已知的鲁棒估计渐进性结果自动校准置信区间,并呈现了初步实验结果支持我们方法的有效性。
Nov, 2020
提出了一种名为DORO的分布与离群点鲁棒优化框架,其中核心在于改进的风险函数,可以解决分布变化和离群点的问题,从而提高了机器学习的性能和稳定性。该方法有助于提升现代大型数据集的实验结果。
Jun, 2021
本文提出并分析了一种基于随机算法的方法,用于解决Kullback Leibler divergence约束的Distributionally Robust Optimization问题,该方法适用于非凸和凸损失函数,并具有更高的竞争性和更实用的常数批量大小迭代复杂度。
Oct, 2022
本文提出了一种新的最小化极差风险优化问题,称为最小极差风险优化(MERO),并借助随机凸-凹优化(SCCO)的技术,提出了高效的随机逼近方法来解决MERO。实验证明,该方法具有几乎最优的收敛速率,且在不同分布噪声存在异质性的情况下具有分布相关的收敛速率。
May, 2023
使用分布稳健优化(DRO)问题中的谱风险不确定性集和$f$-散度惩罚,我们构建了一个包括常见风险敏感学习目标的模型。我们提出了Prospect算法,只需要调整一个学习率超参数,证明其对于平滑正则化损失具有线性收敛性。与先前的算法相比,前者要求调整多个超参数或由于有偏梯度估计或不充分的正则化而可能无法收敛。在实证上,我们展示了在跨表格、视觉和语言领域的分布偏移和公平性基准上,Prospect算法的收敛速度可以比随机梯度和随机鞍点方法快2-3倍。
Oct, 2023
该论文主要研究了分布鲁棒优化(Distributionally Robust Optimization,DRO)中的约束问题,针对非凸损失函数提出了一种随机算法并进行了性能分析,证明了该算法能够找到一个满足ε-稳定点,而且计算复杂度为O(ε^(-3k_*-5)),此外,数值结果表明该方法优于现有方法。
Apr, 2024
本研究针对不确定性决策中数据生成过程未知的问题,提出了具有贝叶斯模糊集的分布鲁棒优化方法(DRO-BAS),通过优化最坏情况风险来应对模型的不确定性。实验证明,该方法在许多指数家族成员中具有封闭形式的对偶表示,并在Newsvendor问题上展现了优于现有贝叶斯DRO方法的外样鲁棒性。
Sep, 2024
本研究解决了在不确定性条件下决策问题的挑战,尤其是当概率分布本身存在不确定性时。文章提出了一种新的方法,强调模糊集合在最坏情况下选择决策的重要性,并展示了心理学和神经科学的支持。研究的主要发现是,分布鲁棒优化与机器学习中的正则化技术和对抗训练之间存在深刻联系,具有重要的应用潜力。
Nov, 2024