该研究关注于机器学习模型中有关成员推断攻击的问题,并提出了一种新的会员推断技术 —— 抽样攻击,进一步研究了两种最近的攻击模型以及针对这些攻击的防御方法,最终发现在预测输出时的输出微扰技术是一种简单易行的隐私保护方法,对预测结果的影响较小。
Sep, 2020
本文研究数据的代表性对于通过机器学习模型进行数据推断至关重要,探讨了模型中的偏见和公正性,以及与输入数据固有偏见的关系。本文介绍了三个可测量概念,以帮助集中观点并评估不同的数据样本。通过对美国人口普查数据的实证演示,我们评估了这些概念之间的对比。最后,我们提出了一个问题框架,帮助设计人员在数据文档模板中考虑数据的代表性。
Mar, 2022
本文提出了一种使用非参数方法、连续监控、基于概率策略和适应分布变化等特征的公平性审计方法,并在多个基准公平性数据集上验证其有效性。
May, 2023
通过基于人类教学的伪边际抽样实现机器学习的普适性教学方法,成功地在主题模型上进行训练,并在电影简介数据中验证了该方法的优势。
May, 2016
在这篇论文中,我们揭示了现有的样本选择方法在实践中存在的数据和训练偏差问题,并提出了一种鲁棒的网络架构和混合采样策略来解决这些问题,以实现对带有噪声标签的学习任务的准确建模。
Jan, 2024
研究论文通过理论和实验,探讨了 ε- 代表性方法在决策树中评估数据集相似性的可靠性,发现 ε- 代表性与特征重要性排序具有显著相关性,并将结果扩展到 XGboost 在未见车辆碰撞数据中的应用。
Apr, 2024
研究提出了一种新型的样本采样算法,“SMOTE-RUS-NC”,它可以通过结合三种不同的采样技术来实现数据的平衡处理,进而提高分类算法的性能,特别是能够在高度不平衡的数据集中表现出卓越的效果。
Aug, 2022
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器,解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题,提高了模型的训练效率。
Aug, 2023
本文研究了在本地差分隐私条件下从用户隐私数据中学习项目簇的问题,并且开发了一些方法来限制互信息,其结果表明采取不同的算法和方法可以实现不同零星用户样本复杂度,同时研究的技术具有更广泛的适用性。
Jul, 2012