- 强化学习与人类反馈的自适应偏好缩放
提出了一种新的自适应偏好损失函数,基于分布均衡优化,用于解决偏好强度不确定性问题,通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明,该方法不仅提升了策略性能,还使奖励函数的选择更加贴合策略优化,简化了超参数调整过程。
- AAAI大规模非凸随机约束分布鲁棒优化
该论文主要研究了分布鲁棒优化(Distributionally Robust Optimization,DRO)中的约束问题,针对非凸损失函数提出了一种随机算法并进行了性能分析,证明了该算法能够找到一个满足 ε- 稳定点,而且计算复杂度为 - 核心镜像离心法用于度量优化的分析
在一个统一的框架下,选择一个适当的函数空间作为非负测度锥体的对偶,研究一类功能鞍点优化问题,我们将其称为混合功能纳什均衡 (MFNE),它是现有的一些机器学习算法的基础,例如隐性生成模型、分布鲁棒优化 (DRO) 和 Wasserstein - MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐
通过使用期望最大化算法,学习一种偏好分布的混合,以及基于社会选择理论中的平等原则提出一种最大最小对齐目标,提高代表多样化人类偏好的能力,并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。
- 贝叶斯非参数统计遇见数据驱动的鲁棒优化
通过将贝叶斯非参数理论和最近一些决策理论模型的平滑模糊厌恶偏好相结合,我们提出了一种新颖的鲁棒准则,并与标准的正则化经验风险最小化技术之间建立了新颖的联系,从而为优化过程提供了有利的有限样本和渐进统计保证。
- 多分布学习的分布相关速率
为了应对敏感机器学习应用中的不确定性建模需求,分布鲁棒优化(DRO)的设置在各种任务中寻求统一的良好性能。最近的多分布学习(MDL)框架以与环境的动态互动的方式解决了这一目标,在该框架中,学习者可以对每个目标分布进行采样访问。借鉴了纯探索多 - FedDRO: 面向分布鲁棒学习的联邦组合优化
提出了一种在联邦学习场景中高效解决非凸复合优化问题的 FedAvg 型算法,利用分布鲁棒优化问题结构设计通信策略来控制估计的复合梯度中的偏差,实现了样本复杂度为 O (ε^-2) 和通信复杂度为 O (ε^-3/2) 的线性加速,并通过对大 - 离散贝叶斯网络的分布鲁棒骨架学习
从有可能被破坏数据中学习普通离散贝叶斯网络的确切骨架的问题,我们建立在分布鲁棒优化和回归方法基础上,提出通过在有界 Wasserstein 距离或 KL 散度内的一族分布上最小化最不利风险来进行优化。该最坏情况风险考虑了异常值的影响。该方法 - 异常值鲁棒的 Wasserstein DRO
给定一个研究论文,提取 5 个关键词,准确地代表其主要主题和研究领域。然后,用一句简明扼要的中文句子概括该论文。
- DRAUC: 一种基于实例的分布鲁棒 AUC 优化框架
基于分布鲁棒的面积下 ROC 曲线 (DRAUC) 的模型优化框架,解决了长尾分类情景下训练和测试样本分布差异以及标签偏差的问题。
- 应用分布鲁棒优化获得可解释的分类模型
通过利用分布鲁棒优化,我们提出了一个新的公式来学习一组规则集的集合,以在保持计算成本低的同时确保良好的泛化性能,并通过构建一个稀疏的规则集合来解决规则集的稀疏性和预测准确性之间的固有权衡。
- 群体分布鲁棒知识蒸馏
通过组别感知的蒸馏方法,我们通过优化一组权重,动态关注在训练过程中表现不佳的群体,从而解决医学影像分析中的子群体变化问题并改善最差群体的准确性。
- 基于流量的分布鲁棒优化
我们提出了一种计算效率高的框架,称为 FlowDRO,用于解决基于流的分布鲁棒优化(DRO)问题,该框架利用 Wasserstein 不确定性集,并要求最差情况分布(也称为最不利分布,LFD)连续,从而使该算法能够在具有更大样本量的问题中进 - 公平 ROAD:对抗去偏的鲁棒优化
该研究致力于解决局部公平性问题,引入了 ROAD 方法,结合了分布鲁棒优化框架和公平对抗学习目标,从而实现了在整个人口和特征空间的任何子区域内预测的无偏性。实证实验证明该方法在三个标准数据集上实现了局部公平性和准确性的帕累托优势,并在分布转 - 具有偏差和方差减少的分布鲁棒优化
使用分布稳健优化(DRO)问题中的谱风险不确定性集和 $f$- 散度惩罚,我们构建了一个包括常见风险敏感学习目标的模型。我们提出了 Prospect 算法,只需要调整一个学习率超参数,证明其对于平滑正则化损失具有线性收敛性。与先前的算法相比 - 通过分布式鲁棒优化理解对比学习
该研究通过分析对比学习(CL)揭示了其对采样偏差具有内在的容忍度,并借助分布鲁棒优化(DRO)的视角填补了现有理论无法解释这一现象的研究空白,得出几个关键见解:(1)CL 实质上是在负采样分布上进行 DRO,从而在各种潜在分布中实现鲁棒性, - 通过对抗正则化实现稳健的多智能体强化学习:理论基础和稳定算法
通过控制一个策略的利普希茨常数,我们展示了在固定条件下的利普希茨和接近最优策略的存在,并基于此提出了新的强健 MARL 框架 ERNIE,通过对状态观测和动作进行对抗性正则化来提高其的利普希茨连续性,并展示了在交通灯控制和粒子环境中的广泛实 - 无标签领域外数据提高泛化能力
将未标记的数据合并到半监督分类问题的一个新框架中,借助分布鲁棒优化 (Distributionally Robust Optimization) 和自我监督训练的组合,提供了新的错误界限以及将离域样本用于缩小泛化差距的方法。
- 基于 Wasserstein 分配鲁棒性的上下文强化学习策略评估与学习
提出了一种利用 Wasserstein 距离的分布鲁棒优化方法,用于解决环境不匹配的问题,并提供了理论分析和实证验证。
- 分布稳健的迁移学习
我们的论文介绍了一种新颖的转移学习方法,即分布鲁棒优化(TransDRO),它破除了严格的相似性约束,并通过在不确定性集合内优化最具对抗性的损失来优化目标数据的预测性能。通过数值研究和多机构电子健康记录数据的分析,我们验证了 TransDR