关于时间概念漂移对模型解释的影响
该论文探索了自然语言处理中有关如何在不同领域中提取精准的解释的方法,其中侧重于后续解释和固有的忠诚度模型,并且发现后续解释的忠诚度在许多情况下比在领域内更高,而在跨域设置中,选择后预测模型的预测性能与完整训练模型相当。
Feb, 2022
本综述通过对忠实度的镜头,回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估,以及它对可解释性的重要性,并将现有方法分为五类。最后,我们总结了它们的共同优点和未解决的挑战,并反思了未来的研究方向。
Sep, 2022
在实际的自然语言处理应用场景中,研究人员不仅希望提高预测性能,还寻求模型预测的准确解释。已有研究探讨了不同因素对解释的准确性的影响,但多语言和单语言模型之间解释的准确性差异尚未探索。通过对五种语言和五种常用特征归因方法进行广泛实验,我们发现多语言模型的解释准确性与单语言模型存在差异,并且发现多语言模型越大,特征归因方法相对于单语言模型的解释准确性越低。进一步的分析表明,这种差异可能由模型分词器之间的差异引起。
Mar, 2024
该研究在 Wikidata 数据集上,评估了 11 个预训练的蒙面语言模型对时间概念漂移的影响,以确保其能够适应不断更新的现实世界的事实更新,并提供了一个综合框架来构建不同时间粒度的事实数据集,并通过多个评估角度来评估模型是否过时。
Feb, 2023
本文提出了两方面的方法以提高 TempRel 的准确性,即进行反事实分析以减轻训练偏见的影响和提供不确定性估计并在文本中描述关系。在 MATRES,MATRES-DS 和 TDDiscourse 上的实验分析表明,我们的模型相对于 SOTA 方法更具有忠诚度,特别是在分布转移下。
Oct, 2022
评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性,并发现我们的度量考虑了 CT 遗漏的忠实性方面。
Apr, 2024
本文发现注意力解释的一个关键限制:弱点在于识别特征影响的极性。为此,作者提出了一个行动诊断方法来量化解释权重与影响极性之间的一致性,并通过大量实验表明,大多数测试的解释方法都意外受到忠诚度违反问题的阻碍,特别是原始的关注力。
Jan, 2022
通过对传统的可解释性测试进行评估,发现在复杂数据方面存在随机优势问题。为了解决这个问题,我们提出了三种基于趋势的可信度测试,并通过实证研究证明新的趋势测试可以更好地评估图像、自然语言和安全任务的可信度。我们实施了评估系统并评估了十种常用的解释方法,从中获得了前所未有的发现,启发了未来的研究。同时,可信度测试也极大地提高了下游任务的效果。例如,配备可靠的解释方法的模型调试在检测和修正准确性和安全性问题方面表现出更好的性能。
Sep, 2023
重复研究 “忠实度” 在连续数据中的应用,提出了定量和定性忠实度的正式定义,并研究了定性和定量忠实度的局限性,还探索了这些方法在连续数据和可微分类器上的适用性。
May, 2022
通过对情感分析、意图检测和主题标记等三个自然语言处理任务中选定的易解释算法与专家解释方法的综合定量比较,我们的研究表明,传统的基于扰动的方法 Shapley value 和 LIME 可以同时实现更高的准确度和用户可访问性,与模型的推理过程、领域专家一致的解释方式。这一发现提示我们在优化解释算法时应当以双重目标为导向,以实现准确度和用户可理解性的双重提高。
Mar, 2024