批量鲁棒学习的通用方法

Feb, 2020

A General Method for Robust Learning from Batches

Ayush Jain, Alon Orlitsky

TL;DR研究了在数据存在噪声和对抗性的情况下如何进行鲁棒学习，同时提出了有效的学习算法来解决分段区间分类和分布估计的问题。

Abstract

In many applications, data is collected in batches, some of which are corrupt or even adversarial. Recent work derived optimal robust algorithms for estimating discrete distributions in this setting. We consider a general framework of →

robust learning discrete distributions adversarial data piecewise-interval classification distribution estimation

发现论文，激发创造

高效地从不受信任批次中学习结构化分布

研究了从不可信批次中学习的问题，通过采用基于求和平方层次结构的算法框架，提出了在具有形状先验知识的情况下，在自然分布类中降低样本复杂度的解决方案。

Nov, 2019

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020

通过分布式稳健优化实现统一性能学习模型

本研究提出了一种分布鲁棒的随机优化框架，利用凸形式化来解决学习模型受到数据生成分布扰动的问题，并通过多项收敛性保准来证明模型的可靠性，同时也得出了极限定理及有关泛化到未知人群、精细化认知等真实任务的证据。

Oct, 2018

在线和分布自由鲁棒性：带 Huber 污染的回归和上下文臂

本文从对抗鲁棒性的角度重新审视了两个经典的高维在线学习问题，即线性回归和情境地图，并探究了无需假设数据分布，直接从全局角度保证它们对抗鲁棒的可行性。具体方法是通过交替最小化策略将普通最小二乘法嵌入到简单的凸约束计算不完整数据下的最优加权分布，并证明该方法在污染程度方面具有最佳的可重复性和完整性。

Oct, 2020

使用在线批量转换的相关数据泛化界限

我们使用在线到批次转换范例，给出了从依赖数据源中获取的样本训练的统计学习算法的泛化界限，包括期望值和高概率。我们表明，统计学习器在依赖数据环境中的泛化误差等同于独立同分布环境中的泛化误差，除了一个依赖于底层混合随机过程的衰减速率且与统计学习器复杂性无关的项。我们的证明技巧涉及基于 Wasserstein 距离定义在线学习算法稳定性的新概念，并利用基于依赖随机变量的 “近似鞅” 浓度界限，得出了统计学习算法在依赖数据上的泛化误差的适当上界。

May, 2024

基于多源数据的分布鲁棒机器学习

利用多源数据建立组分布鲁棒预测模型以优化关于目标分布解释方差的对抗性奖励，提高了面对分布偏移的目标群体的预测准确性；该模型是源群体条件结果模型的加权平均，并通过引入偏差校正估计器提高了聚合权重的收敛速度，同时满足一些隐私约束并具有解释不同源数据对于预测给定目标协变量分布的重要性的优点。

Sep, 2023

将未标记数据纳入分布鲁棒学习中

本研究介绍了一种新的分布鲁棒学习方法，该方法通过加入无标签数据以限制敌手从指定分布中选择数据，可以有效地进行分类，并提出了一个分布鲁棒的版本，可应用于主动学习。在 14 个真实数据集上的结果表明，该算法往往在传统方法无法提供良好结果的情况下表现出色。

Dec, 2019

从不受信任的批次中学习离散分布

考虑在包含 ε 部分恶意数据源的情况下学习离散分布的问题，提供两种算法：一种在支持集大小 n 的指数时间复杂度下恢复 p，第二种在适用于 η = 0 的情况下，通过近似一个张量来实现，虽然其运行时间为 poly ((nk)^k)，但可以提供 O（ε/√k）的恢复保证，这可能具有独立的利益。

Nov, 2017

预测区间的判别式学习

本文提出了一种区分学习框架，它在区间大小预算约束下，优化预期错误率，以构建归纳批处理中的预测区间。通过专注于预期误差，我们的方法允许条件错误率的变异性，这可以提高整体准确性或者减少平均区间大小。虽然我们考虑的问题是回归型的，但我们使用的损失是组合型的，这使我们能够提供 PAC 样式的有限样本保证。

Oct, 2017

使用异构数据批量进行线性回归

在很多学习应用中，数据来自多个来源，每个来源提供的样本批次本身无法足够学习其中的输入 - 输出关系。本文提出了一种基于梯度的新算法，通过解决多个问题改进了现有结果的适用性，包括允许子群的底层输入分布不同、未知和重尾、复原所有子群以及一个重要批次规模甚至可以为无穷大等。

Sep, 2023