May, 2021

利用稀疏线性层进行可调试的深度神经网络

TL;DR本研究通过在深度特征表示上拟合稀疏线性模型,证明可以得到更易于人类解释的神经网络,并通过数值和人类实验量化地展示了这一点。我们进一步说明这些稀疏解释如何帮助在视觉和语言任务中识别虚假相关性、解释误分类并诊断模型偏见。我们的工具包的代码可以在此 https URL 找到。