欺骗性证书选择的难度
通过 Merlin-Arthur 协议的启发,我们提出了一种新的理论框架,使得像神经网络这样的黑盒分类器可以解释,用互信息作为衡量指标来证明特征与类别之间的信息量下限,并通过实验验证了理论与实践的一致性。
Jun, 2022
该研究探讨在对抗鲁棒性的背景下,证明攻击 ReLU 分类器是 NP 难题,而在训练期间确保它们的稳健性则是 Σ2_P 难题,同时提出一种名为 Counter-Attack 的方法来证明抵御攻击的有效性。
Jun, 2023
该论文提出了 FullCert 方法,通过边界流概念构建了第一个具有可靠、确定性范围的端到端认证系统,用于防御训练和推断阶段的攻击,并结合开源库 BoundFlow 进行实证验证。
Jun, 2024
采用输入随机化生成的分类器的集合可以具有很强的鲁棒性,该方法可扩展到更广泛的分布,特别是在离散情况下保证敌对的鲁棒性,并给出了相应的算法,此外,该研究有助于通过假设分类器的函数类来提高保证,并且具有图像和分子数据集上的实际应用。
Jun, 2019
本文介绍了一个通用工具 CERTIFAI,可以应用于任何黑盒模型和任何类型的输入数据,通过生产接近输入但改变模型预测的 counterfactuals,探讨机器学习模型的鲁棒性、可解释性、透明性和公平性,并介绍了第一个黑盒模型鲁棒性分数 CERScore。
May, 2019
该研究从学习者和第三方认证者的角度正式研究了分类问题,并考虑了半监督学习框架下 VC - 类的适当学习的可能性和不可能性结果。该研究还探讨了黑盒认证在有限查询预算下的黑盒对手视角,提出了一些预测器和扰动类别的分析,并证明了具有多项式查询复杂性的对手的存在可以暗示存在样本高效稳健的学习者。
Jun, 2020
本文介绍了一个基于交互和隐私保护测试的框架,该框架允许对任何经过训练的模型进行公平程度的认证,无论其训练过程和架构如何,并且提供了一种加密技术来自动进行公平测试和认证推理,同时隐藏参与者的敏感数据。
Sep, 2020
本文介绍了在安全关键应用中,对抗攻击对部署最先进的分类器构成重大威胁;总体上,经验证的防御方法虽然具有鲁棒性保证,但是实践中的对抗训练比较受欢迎。我们系统性地比较了这两种鲁棒性训练方法在多个计算机视觉任务中的标准错误和鲁棒错误,结果表明,在大多数任务和威胁模型下,采用凸松弛的认证训练比采用对抗训练更容易带来标准错误和鲁棒错误。此外,我们还探讨了认证和对抗训练之间的错误差距如何依赖于威胁模型和数据分布,并且除了扰动预算外,我们还确定了扰动集的形状和数据分布的隐式边缘等重要因素。本文在合成和图像数据集上进行了大量消融实验,证明我们的观点。
Jun, 2023
本文介绍了一种基于自适应浓度不等式的可扩展算法,用于验证机器学习系统在进行社会决策时是否会对少数族裔造成不公平待遇,并在一个名为 VeriFair 的工具中实现了这个算法,并证明该算法能够扩展到大的机器学习模型,包括一个比先前已验证过的神经网络大五个数量级的深度循环神经网络,虽然该技术只提供概率保证,但可以选择非常小的误差概率。
Dec, 2018