Mar, 2025

基于可解释人工智能的灰盒文本攻击框架

TL;DR该研究针对传统对抗性文本攻击方法的局限性,提出了一种新的灰盒与黑盒相结合的攻击框架。利用可解释人工智能技术,该框架在不需要了解模型细节的情况下,通过替代变换器模型进行攻击,生成能够有效欺骗其他模型的语义良好的句子,其影响在于提高了对抗性攻击的隐蔽性与实用性。