Dec, 2023

通过鲁棒性改进和解释引导训练实现忠实的文本分类解释

TL;DR提出了一种名为 REGEX 的方法,通过改善模型的鲁棒性和引导解释训练,实现对文本分类的更准确的特征解释,实验证明 REGEX 在各种设置下提高了解释的准确性,并在两个随机化测试中取得了一致的增益。此外,使用 REGEX 产生的高亮解释来训练选定 - 然后 - 预测模型在任务性能上可与端到端方法相媲美。