Jan, 2018

机器学习本地解释的人类基准评估

TL;DR本文提出了一个针对图像和文本领域使用的人类注意力基准,使用多层人类注意力蒙版的评估方法评估了使用 Grad-cam 和 LIME 技术获得的模型显著性解释,并通过比较单层对象分割掩码评估的主观评分和基准阈值不可知的评估方法的效果,表明我们的基准更加有效。同时,本文的实验还揭示了主观评分中的用户偏见。