BriefGPT.xyz
Nov, 2024
文本分类器的反事实解释方法比较分析
A Comparative Analysis of Counterfactual Explanation Methods for Text Classifiers
HTML
PDF
Stephen McAleese, Mark Keane
TL;DR
本文研究了反事实解释方法在文本分类器中的应用,针对五种方法进行了比较,发现传统的置换基础方法在生成有效反事实方面表现良好,而基于大型语言模型的新方法则在生成自然语言文本方面表现出色,但常常未能改变分类器的输出。研究建议结合这两类方法的优点,以开发新型高质量的反事实解释方法。
Abstract
Counterfactual Explanations
can be used to interpret and debug
Text Classifiers
by producing minimally altered text inputs that change a classifier's output. In this work, we evaluate five methods for generating
→