Jul, 2023

基于概念的解释用于检测被虐待语言分类器学习到的伪因果关系

TL;DR本文研究了三种常见的英文辱骂语言分类器,关注负面情绪的本质,并介绍了基于概念的解释度量来评估概念对标签的影响,并比较分类器在概念和标签之间学习虚假全局充分性的程度。