Feb, 2024

用反事实表示解释文本分类器

TL;DR通过在文本表示空间进行干预的简单方法生成对抗事实,以用于分类器解释和偏见缓解。