Nov, 2023

基于概念残差模型的分解性能测评和增强

TL;DR通过对概念和残差进行分离的三种新方法来减轻信息泄露,研究和平衡模型性能和可解释性之间的关键平衡,以及如何干预概念对任务性能的影响。