black boxes | BriefGPT - AI 论文速递

关键词black boxes

搜索结果 - 5

如何欺骗你？通过误导性黑盒解释来操纵用户的信任
本文旨在探究黑匣子机器学习模型中可能导致误导性解释并如何通过这些解释操纵用户信任，通过用户研究和理论框架展示了这些解释对用户的误导性，并提出了一种新的理论框架来理解和生成这些解释。
PDF5 years ago
LIME 和 SHAP 欺骗：对事后解释方法的对抗攻击
本文提出一种新型的脚手架技术可以隐藏任何给定分类器的偏见，并演示了该技术如何可以欺骗常见的解释技术如 LIME 和 SHAP 生成无害的解释而不反映潜在的偏见。
PDF5 years ago
ICLR逆向工程黑盒神经网络
研究表明，通过一系列查询可以暴露神经网络的架构、优化程序或训练数据等属性，因此黑匣子神经网络更容易受到各种攻击，但该技术也可以用于更好地保护个人隐私。
PDF7 years ago
SIGIR探索 PACRR 模型内部的层
本文通过可视化中间层输出和分析中间权重与最终相关性分数之间的关系，旨在探究最近提出的神经 IR 模型 PACRR 模型的内部运作机制，并提供对广泛应用有用的几点见解。
PDF7 years ago
使用线性分类器探测中间层
通过监测神经网络模型每个层的特征并测量其对分类的适用性，使用线性分类器（即 “探针”）完全独立于模型本身进行训练，这有助于更好地理解中间层的作用和动态，并可用于诊断潜在问题。将此技术应用于 Inception v3 和 Resnet-50
PDF8 years ago