As machine learning methods see greater adoption and implementation in high
stakes applications such as medical image diagnosis, the need for model
interpretability and explanation has become more critical. Classical approaches
that assess feature importance (e.g. saliency maps) do not
AI 模型的可解释性通常会因降低准确性而受到质疑。我们开发了一种训练策略,不仅提高了目标分类方案的解释性,同时并未降低准确性,实现方式是对决策网络作出决策的可视证据进行区域定位,其表示方法为表征哪些像素对网络决策的贡献最大的显著性图。我们的训练策略通过使模型集中于直接对应于地面目标的图像区域的反馈,在自动和人工指标的量化中量化可解释性,并提出了可解释性作为弥合不同域之间视觉 - 语义差距的手段。我们证明,这种方法不仅提高到新领域的泛化性能,而且不会影响在原始领域上的性能。