Deploying machine learning models in safety-related do-mains (e.g. autonomous
driving, medical diagnosis) demands for approaches that are explainable, robust
against adversarial attacks and aware of the model uncertainty. Recent deep
learning models perform extremely well in various in
AI 模型的可解释性通常会因降低准确性而受到质疑。我们开发了一种训练策略,不仅提高了目标分类方案的解释性,同时并未降低准确性,实现方式是对决策网络作出决策的可视证据进行区域定位,其表示方法为表征哪些像素对网络决策的贡献最大的显著性图。我们的训练策略通过使模型集中于直接对应于地面目标的图像区域的反馈,在自动和人工指标的量化中量化可解释性,并提出了可解释性作为弥合不同域之间视觉 - 语义差距的手段。我们证明,这种方法不仅提高到新领域的泛化性能,而且不会影响在原始领域上的性能。