关于解释在域外环境中的实证研究
研究模型训练数据时间跨度与目标数据不同(异步设置)时,时序变化如何影响模型解释正确性,发现不同方法的特征归因存在互相矛盾的行为,需要更多的指标来评估后期解释正确性。
Oct, 2022
本论文提出一种在自然语言处理中,以任意文本序列作为解释单元以提高解释的可解释性、效率和忠实度的方法,该方法实现了一种带模型的忠实度保证的 Hessian-free 算法,并且提出了一种基于语义的评估度量,该度量可以更好地与人类对解释的判断相匹配。多个实际数据集的实证结果表明,相对于 Influence Function 或 TracIn 等解释技术,所提出的方法具有优越的性能。
Jun, 2021
本文介绍了后验方法中计数事实解释作为黑盒机器学习模型的后解释技术中越来越受欢迎的方法,但使用该方法泄露了与模型相关的信息,攻击者可以建立一个忠实副本。通过在真实世界数据集上进行评估,我们证明了该攻击可以在低查询预算下实现高保真度和高准确度的模型提取,进而引出了隐私问题。
Sep, 2020
本综述通过对忠实度的镜头,回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估,以及它对可解释性的重要性,并将现有方法分为五类。最后,我们总结了它们的共同优点和未解决的挑战,并反思了未来的研究方向。
Sep, 2022
本文探讨了后设反事实解释方法对数据和分类器的基本假设导致其在很多情况下的不可靠性,并提出了近似性、连通性和稳定性三种量化方法和途径。另外,本文还证明了后设反事实方法不满足这些属性的风险。
Jun, 2019
在实际的自然语言处理应用场景中,研究人员不仅希望提高预测性能,还寻求模型预测的准确解释。已有研究探讨了不同因素对解释的准确性的影响,但多语言和单语言模型之间解释的准确性差异尚未探索。通过对五种语言和五种常用特征归因方法进行广泛实验,我们发现多语言模型的解释准确性与单语言模型存在差异,并且发现多语言模型越大,特征归因方法相对于单语言模型的解释准确性越低。进一步的分析表明,这种差异可能由模型分词器之间的差异引起。
Mar, 2024
提出了一种名为 FRESH 的简化模型解释方法,通过使用任意的特征重要性分数来导出二进制标签以训练提取器,再用提取器提供的片段训练独立分类器模块,从而构成可信解释,具有超越端到端方法的预测性能优势并更容易实现。
Apr, 2020