欺骗性证书选择的难度

Jun, 2023

Hardness of Deceptive Certificate Selection

Stephan Wäldchen

TL;DR通过交互式证明系统和证明者选择一个具有信息量的证书的方式，以达到高完整性和声音，从而对具有高互信息的证书进行边际分析，区分高维数据集。进而证明 Asymmetric Feature Correlation 是难以计算利用的，从而推断它不会阻止交互分类用于现实任务。

Abstract

Recent progress towards theoretical interpretability guarantees for AI has been made with classifiers that are based on interactive proof systems. A prover selects a certificate from the datapoint and sends it to a verifier who decides the class. In the context of →

ai interpretability interactive proof systems machine learning asymmetric feature correlation computationally hard

发现论文，激发创造

Merlin-Arthur 分类器：基于交互式黑盒子的形式可解释性

通过 Merlin-Arthur 协议的启发，我们提出了一种新的理论框架，使得像神经网络这样的黑盒分类器可以解释，用互信息作为衡量指标来证明特征与类别之间的信息量下限，并通过实验验证了理论与实践的一致性。

Jun, 2022

鲁棒分类中的计算不对称

该研究探讨在对抗鲁棒性的背景下，证明攻击 ReLU 分类器是 NP 难题，而在训练期间确保它们的稳健性则是 Σ2_P 难题，同时提出一种名为 Counter-Attack 的方法来证明抵御攻击的有效性。

Jun, 2023

FullCert: 神经网络训练和推断的确定性端到端认证

该论文提出了 FullCert 方法，通过边界流概念构建了第一个具有可靠、确定性范围的端到端认证系统，用于防御训练和推断阶段的攻击，并结合开源库 BoundFlow 进行实证验证。

Jun, 2024

对于随机平滑分类器的严格对抗鲁棒性证明

采用输入随机化生成的分类器的集合可以具有很强的鲁棒性，该方法可扩展到更广泛的分布，特别是在离散情况下保证敌对的鲁棒性，并给出了相应的算法，此外，该研究有助于通过假设分类器的函数类来提高保证，并且具有图像和分子数据集上的实际应用。

Jun, 2019

分布式个体公平性认证

神经网络的分布个体公平性的高效认证界限是可扩展、实用和可靠的算法公平性保证来源。

Nov, 2023

CERTIFAI：人工智能模型鲁棒性、透明度、可解释性和公平性的因果推断解释

本文介绍了一个通用工具 CERTIFAI，可以应用于任何黑盒模型和任何类型的输入数据，通过生产接近输入但改变模型预测的 counterfactuals，探讨机器学习模型的鲁棒性、可解释性、透明性和公平性，并介绍了第一个黑盒模型鲁棒性分数 CERScore。

May, 2019

黑盒认证与对抗扰动下的学习

该研究从学习者和第三方认证者的角度正式研究了分类问题，并考虑了半监督学习框架下 VC - 类的适当学习的可能性和不可能性结果。该研究还探讨了黑盒认证在有限查询预算下的黑盒对手视角，提出了一些预测器和扰动类别的分析，并证明了具有多项式查询复杂性的对手的存在可以暗示存在样本高效稳健的学习者。

Jun, 2020

数据视角下的公平性：机器学习模型认证

本文介绍了一个基于交互和隐私保护测试的框架，该框架允许对任何经过训练的模型进行公平程度的认证，无论其训练过程和架构如何，并且提供了一种加密技术来自动进行公平测试和认证推理，同时隐藏参与者的敏感数据。

Sep, 2020

使用凸松弛进行认证训练会影响鲁棒性能

本文介绍了在安全关键应用中，对抗攻击对部署最先进的分类器构成重大威胁；总体上，经验证的防御方法虽然具有鲁棒性保证，但是实践中的对抗训练比较受欢迎。我们系统性地比较了这两种鲁棒性训练方法在多个计算机视觉任务中的标准错误和鲁棒错误，结果表明，在大多数任务和威胁模型下，采用凸松弛的认证训练比采用对抗训练更容易带来标准错误和鲁棒错误。此外，我们还探讨了认证和对抗训练之间的错误差距如何依赖于威胁模型和数据分布，并且除了扰动预算外，我们还确定了扰动集的形状和数据分布的隐式边缘等重要因素。本文在合成和图像数据集上进行了大量消融实验，证明我们的观点。

Jun, 2023

概率集中实现公平性属性验证

本文介绍了一种基于自适应浓度不等式的可扩展算法，用于验证机器学习系统在进行社会决策时是否会对少数族裔造成不公平待遇，并在一个名为 VeriFair 的工具中实现了这个算法，并证明该算法能够扩展到大的机器学习模型，包括一个比先前已验证过的神经网络大五个数量级的深度循环神经网络，虽然该技术只提供概率保证，但可以选择非常小的误差概率。

Dec, 2018