- 神经网络中正性条件的数学认证,及其在偏单调性和伦理人工智能中的应用
本文提出了一种名为 LipVor 的新算法,用于通过有限数量的评估来验证黑盒模型,例如人工神经网络(ANN),是否在部分区域上是单调增的。与先前的方法相比,我们的方法能够在不需要受限的 ANN 架构或分段线性激活函数的情况下,数学上验证 A - 基于散乱数据逼近的观测特定解释
本研究介绍了观测特定解释的定义,通过为每个数据点分配与其在预测过程中的重要性成比例的分数。这种解释涉及对感兴趣的黑匣子模型中最具影响力的观测的识别。通过利用正交匹配追踪算法构建散乱数据逼近的代理模型来估计这些解释的建议方法。该方法在模拟和真 - 基于高斯过程回归的黑盒物理模型估计器用于机器人逆动力学辨识
在这篇论文中,我们提出了一种基于高斯过程回归的黑盒模型,用于识别机器人操纵器的反向动力学。我们的模型基于一种新颖的多维核函数,称为拉格朗日启发的多项式核。该模型能够估计动能和势能,而无需这些量的标签,并且在准确性、广泛性和数据效率方面优于基 - 黑盒异常归因
介绍了一种基于可能性补偿的异常归属框架,用于黑匣子机器学习模型下对异常进行归属。通过对比现有的模型无关解释方法的局限性,利用独立梯度家族函数来辨别异常,证明了该方法的实用性和有效性。
- 加权莫比乌斯分数:一种统一特征归因框架
本文提出了一个可参数化的归因框架 — 带权重的 M"obius 得分,用于解释黑匣子模型的预测(单一特征和特征间互动),并且发现了一些新的归因方法。通过研究归因方法的向量空间,我们的框架利用标准线性代数工具,并提供了在合作博弈理论和因果中介 - 炼铁炉分类器设计中融入领域知识
本研究提出了一个整合领域知识的分类模型框架,此框架利用黑匣子模型来描述高炉系统,使得可以在工业应用中实现更加准确地分类并识别出 “important samples”,提高高炉系统控制的精度和效果。
- CVPR同胞攻击:重新思考对人脸识别可迁移对抗攻击
Sibling-Attack 是一个新的人脸识别攻击技术,通过利用多任务相关信息来增强攻击的可迁移性以攻击黑箱模型,经过实验证明,相比先前的攻击技术,ASR(攻击成功率)提高了 12.61% 至 55.77%。
- 在线多智能体去中心化拜占庭容错梯度估计
本文提出分布式迭代方案,用于对与黑箱模型相关的梯度进行拜占庭容错评估,基于同时扰动、安全状态评估和双时间尺度随机逼近,同时通过数值实验展示了算法性能。
- ICML利用符合性预测在分布偏移下估计 AI 医疗设备的测试性能
研究了基于对比预测的黑盒测试评估技术,用于评估医学图像领域的人工智能医疗设备的测试性能,希望能推广实用和有效评估技术,从而促进临床 AI 工具的健康和可靠发展。
- 我应该选择哪种解释?一种用于表征事后解释的函数逼近视角
通过统一八种流行的事后解释方法,本文揭示其共同的局部函数逼近目标,并提供了一种基于对黑匣子模型的忠诚度的方法来选择使用哪种方法,这不仅推进了这些方法的概念理解,还为实践中的使用提供了一个合理的方法。
- 黑盒解剖仪:面向基于擦除的硬标记模型窃取攻击
该研究提出了一种新的黑盒模型窃取方法,主要包括基于 CAM 的擦除策略和基于随机擦除的自知识蒸馏模块,通过从受害者模型中获取潜在的信息容量并使用替代模型的软标签缓解过度拟合问题,最终能够提高模型窃取效果达到最多 8.27%的提升,并有望在实 - 应用 StyleGAN 对医学图像的深度学习模型进行视觉解释
本研究提出了一种新的解释性方法,可以用于理解任何黑盒模型在图像上的预测结果,通过在潜空间中移动输入图像的潜在向量,以创建不同预测结果的新图像序列,从而揭示模型学习的模式,提高临床医生对模型预测的信任,并发现新的生物标志物和潜在偏差。
- 黑盒翻录器:使用生成式进化算法复制黑盒模型
本文研究如何通过使用 teacher-student 的框架,以及应用进化策略来生成训练数据样本,以最小化准确率损失,从而复制黑盒神经模型的功能,并且在三个基准数据集上将我们的框架与几种基线和最先进方法进行了比较。
- MM黑盒恶意软件分类器的最佳努力对抗逼近
本文提出了一种在黑盒恶意软件分类器上近似模型的最佳努力对抗逼近策略,使用特征表示映射和跨领域可转移性,通过局部训练替代模型,使用不同特征类型进行目标模型的逼近,本方法对两种黑盒分类器进行了评估。
- KDD一种通用且与模型无关的生成样本框架,用于可解释人工智能
提出了一种基于生成模型的,通用的和模型无关的框架,用于综合最大化机器学习模型的期望响应的输入样本,该框架不需要对黑盒模型的内部结构或训练数据的访问或知识。
- 超越 LIME 的替代预测解释
本文提出一种算法框架 bLIMEy,用于构建定制的本地替代解释器,其中包括 LIME,该框架独立且可互操作,并讨论了组件选择对结果解释器功能能力的影响。
- 后因解释的危险性:不合理的反事实解释
通过研究局部邻域,探究人工构建的反事实解释是否为实际数据知识,发现存在较高风险,多数最前沿方法不能区分有解释性的反事实实例和不合理实例。
- 零售预测模型为何失败?对比局部解释
研究了如何通过引入对预测误差的对比解释来提高用户对于 “黑盒” 模型的信任度,通过提出 Monte Carlo Bounds for Reasonable Predictions 算法来解释大误差并使用用户研究集体检验,结果显示编解码器生成 - ICML正则化黑盒模型以提高可解释性 (HILL 2019 版本)
本文提出了一种新的方法,即在训练时直接对黑盒模型进行可解释性正则化,以改善解释效果,提高模型的可解释性,并保持一定的准确性。
- 在线学习中的数据集推断和重建攻击泄露更新
本文研究 ML 在线学习的黑盒模型更新前后输出的变化,探讨其可能泄漏数据隐私和知识产权,通过对编码器 - 解码器式 CBM-GAN 模型等进行攻击,提出了新的数据隐私攻击方法,实验结果表明攻击效果显著。