Aug, 2024

对机器生成文本黑箱检测器解释方法的评估

TL;DR本研究解决了机器生成文本(MGT)检测器解释质量的评估问题,首次系统地评估了不同解释方法(SHAP、LIME和Anchor)在该领域的效果。研究发现,SHAP在可信度和稳定性方面表现最佳,能有效帮助用户预测检测器的行为,而LIME尽管被用户认为最有用,但在用户预测表现上最差。