本文提出了一种机器学习模型稳健性的框架,通过人类关于因果关系的常识知识来解决模型在训练和测试过程中的不一致性问题。透过在每个训练数据中加入人类标注的潜在未测变量,将问题转化为协变量转移问题,并引入分布稳健优化目标来控制测试时偏移的最坏情况损失,实验结果表明,在具有旋转混淆的数字识别任务和分析 NYPD 警务巡逻地点混杂的任务中能获得 5-10% 和 1.5-5% 的性能提升。
Jul, 2020
通过稳定特征为引导,在无标签情况下,借助可靠的特征来学习如何在测试领域使用不稳定特征,从而避免在分布不同的数据上的失败。
Jul, 2023
本研究提出了 Cloak 框架,其通过梯度优化方法在输入特征空间中发现功能性预测模型所需的子集,并使用保证效用的常量值抑制其余特征,从而减少机器学习服务中数据泄露和隐私问题。实验结果表明,Cloak 可将输入特征与筛选后的表征之间的互信息降低 85.01%,对效用的影响几乎可以忽略不计(1.42%)。
Mar, 2020
本文探讨了在重要领域(如辅助法律、银行、招聘和医疗抉择的学习模型),是否需要全部的输入特征才能在测试时返回准确的预测,并表明在个性化的环境下,每个人仅需要发布一小部分的这些特征就能保证系统准确度不受影响。研究显示,在一些学习任务中,个体只需提交不到总数据的 10%即可确保与使用完整信息的模型同样准确。同时,本文还提供了一个高效的序列算法来选择哪些属性应由每个个体提供。
Jan, 2023
研究一类私有学习问题,其中数据是私有特征和公共特征的联接。针对多编码器模型中的公共特征,开发了新的算法以仅保护某些足够统计量,从而实现了线性回归的保证效用改进,并在两个标准的私有推荐基准上达到了最先进的水平,证明了适应私有 - 公共特征分离的方法的重要性。
Oct, 2023
本文旨在通过考虑在测试期间输入特征的分布发生偏移并表现出低相关性来评估现有的鲁棒特征学习方法和正则化方法的效果,比较它们与设计用于捕捉训练集中高相关特征的基线方法的差异,并在设计的 C-MNIST 数据集上进行了验证。
Oct, 2019
本文提出了一种名为特权特征精炼(PFD)的方法,用于改善电子商务推荐中基于点击率和转化率等的两项基本预测任务,并在 CTR 任务中实现了 +5.0% 的改善,在 CVR 任务中实现了 + 2.3% 的改善。
Jul, 2019
通过对源任务的数据环境进行对比,利用相关性偏差来建立稳定的分类器,并在目标任务中实现稳健性和最小化最坏风险,以实现无偏的机器学习模型。
Jun, 2021
本文旨在通过在训练时使用合成特征统计数据来增强深度学习模型的泛化能力,建立在统计学的基础上,每个特征统计量变为具有不同分布概率的概率点。研究表明,这种方法可以显著提高图像分类、语义分割和实例检索等多项视觉任务的网络泛化能力。
Feb, 2022
本文提出了 Adaptive SVM + 的学习范式,利用特权信息来进行视觉识别任务的域适应设置,取得了在 Animals with Attributes and INTERACT 数据集上的最新成果。
Aug, 2017