异常值是否破坏协作关系？

ICMLMay, 2018

Do Outliers Ruin Collaboration?

Mingda Qiao

TL;DR提出了一个算法，该算法可以将学习不同数据源中的二进制分类器的复杂性与学习单个数据分布上相同假设类的样本复杂性之比的开销保留在 O（ξn + ln n）中，其中最多有 η 分数是对抗的。此算法被证明是最坏情况下的最优解，并讨论了设计具有小开销的计算高效学习算法的潜在挑战。

Abstract

We consider the problem of learning a binary classifier from $n$ different data sources, among which at most an $\eta$ fraction are adversarial. The overhead is defined as the ratio between the →

binary classifier adversarial data sample complexity algorithm learning

发现论文，激发创造

分类中分布参数与准确性 - 稳健性权衡的相互作用

本文研究了在对抗训练中通过二元高斯混合分类问题的分析，得到最优贝叶斯分类器和最优对抗分类器之间的区别，并研究了不同分布参数（类别中心之间的距离、类别比例和协方差矩阵）对精度差异的影响，提出在一定条件下，平衡类别可以实现对抗分类器的自然误差和精度差距的局部最优化，并证明在最坏情况下精度差距为 Theta（epsilon^2），这在理论上表明了实现近乎完美精度的强健分类器的可能性，这在实际算法中很少体现。

Jul, 2021

抗逃逸攻击的强健学习中的样本复杂度

从学习理论的角度研究鲁棒学习的可行性，考虑样本复杂性，研究了鲁棒学习在拥有随机样本、满足 Lipschitz 条件的数据分布和更强学习能力的情况下的对抗性攻击的脆弱性，提出了基于经验风险最小化的鲁棒算法，并给出了查询复杂性的上下界。

Aug, 2023

关于公平约束学习对恶意噪声的脆弱性

对受到恶意干扰数据的公平约束学习的脆弱性进行研究，发现使用随机化分类器可以降低损失。

Jul, 2023

有限域上的知识传递的基本限制

通过特权信息的不同级别，加速从教师到学生分类器的知识传递效率并且使学生能够获得课程上的优势信息。

Oct, 2023

按需抽样：从多个分布中优化学习

该论文研究了多分配学习范式的最优样本复杂度，并给出了符合最优样本复杂度的算法。其中，他们的样本复杂度界限超过了仅学习单个分布的学习的样本复杂度。

Oct, 2022

适用于超出最坏情况对手的 Oracle 高效在线学习

本文探讨了在线学习的超出最坏情况分析的 Oracle 高效算法，着重于平滑分析设置和 K 提示移项学习。

Feb, 2022

未知分布的高效混合在线学习

我们提出了一种适用于未知特征生成过程的混合在线学习的、高效的预测方法，证明了该方法可在有限的 VC 类中实现具有次线性的遗憾上限，并在具有 α fat-shattering 维度的类中实现具有次线性的遗憾上限。此外，我们拓展了我们的结果到具有 K 个变化的分布转移场景，并为具有有限策略集合 H 和未知分布的 i.i.d. 生成的上下文以及敌对生成的成本的情境 K 臂赌博机建立了遗憾上限。

Jan, 2024

测试时对手存在下交叉熵损失的下限

本文探讨了在存在测试时对抗情况下的分类器损失的最优下限和对应最优分类输出的确定，并使用自适应算法以高效地计算此下限，进而将其作为诊断工具来确定当前鲁棒性训练方法的有效性，并探讨使用最优分类输出作为软标签以经验地改善鲁棒性训练。

Apr, 2021

对抗性多源 PAC 学习的样本复杂度

探讨来自多个不可信数据源的学习问题，提出了一种解决方法，该方法可以在合作学习模式下有效应对某些数据源的有偏差性和攻击性干扰，并能够提供有限样本保证。

Feb, 2020

当没有预警的异常值压倒时的连贯回归

研究了具有重尾噪声分布的健壮线性回归模型，提出了 Huber 损失估计器，证明其在样本量近线性和异常值分数倒数多项式情况下具有一致性。

Sep, 2020