加速全球局部解释的聚合
本研究提出了一种名为 GALE 的机器学习模型,旨在提供有关模型全局决策过程的洞见。结果表明,聚合方法的选择很重要,我们的提出的聚合方法能更好地代表特征如何影响模型的预测,并通过识别区分性特征提供全局洞见。
Jul, 2019
本文提出了基于绑架式解释的机器学习方法,为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数,例如解释长度,优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性,该方法通过内隐命中集和最大通用子集两种解法得出结果,并可以配置不同的扰动集来检测预测结果的偏见,提高 NLP 解释框架的效果。最后,文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估,并展示了该框架的有效性。
May, 2021
本文研究了聚合理论中的统计学设置,并通过用较小的局部复杂度替换全局复杂度来加强经典聚合理论的结果,包括基于 Leung 和 Barron 的指数权重估计器的局部经典简单限制,并针对 Q - 聚合估计器提出了偏差最优限制。
Jun, 2023
本文首次对 Anchors 方法进行了理论分析,针对文本分类算法,使用 TF-IDF 向量化步骤,将词语替换为固定的词汇表外标记,探究了基于规则的解释性方法在不同模型上的行为,并通过对神经网络的实证研究显示了 Anchors 选择模型输入的局部梯度相对应的词语。
May, 2022
我们提出了一种基于锚点的算法,用于确定那些可以保证局部解释正确性的区域,通过明确描述输入特征可信赖的区间来生成可解释的特征对齐框,保证局部代理模型的预测与预测模型相匹配;我们展示了相比现有基线方法,我们的算法能够找到更大的保证区域的解释,更好地涵盖数据流形,并展示了我们的方法如何识别具有较差保证区域的误导性局部解释。
Feb, 2024
本文主要研究神经网络的解释方法,并通过对多种解释方法的组合与模型不确定性的降低,得到简洁而精确的聚合解释。同时,论文对解释的鲁棒性进行了研究,提出了相对于单独的解释方法,聚合解释更加能够抵御对抗攻击。
Mar, 2019
GLocalX 是一种基于本地解释的模型无关的解释方法,通过汇总本地解释解释部分理解黑匣子模型,从而学习精确而简单的可解释模型,以替代黑匣子模型。实验证明,GLocalX 能够准确地模拟几种模型,其性能达到本机全局解决方案的最新水平,这为在带有高维数据的复杂领域中实现高准确性和可理解性的分类模型奠定了基础。
Jan, 2021
本文研究了在长文本摘要场景中采用限定范围的模型是否能够提供比具有全局范围的模型更高的性能,并探讨了在不同层次(从句子到文档)的三种文本局部性,实验结果表明,采用局部化建模策略的模型具有更好的性能。
May, 2022
本文提出了用于自然语言处理模型的新型基于梯度的特征暗示方法(Locally Aggregated Feature Attribution,LAFA),通过汇集从语言模型嵌入推导出的类似参考文本来平滑梯度,以实现对模型的解释性。该方法在公共数据集上进行了实验,包括实体识别和情感分析以及在构建的 Amazon 目录数据集上对重要特征的检测。通过实验,证明了该方法的优越性能。
Apr, 2022