Nov, 2024

当后门攻击发声时:通过模型生成的解释理解大型语言模型的后门攻击

TL;DR本研究针对大型语言模型(LLM)在后门攻击中存在的安全漏洞,探索了其后门功能及机制。通过生成可理解的自然语言解释来比较清洁样本与被污染样本之间的差异,我们发现后门模型在生成解释时的质量和一致性存在显著差异。这些发现加深了我们对LLM后门攻击机制的理解,并为利用解释性技术检测此类漏洞提供了框架,助力更安全的LLM发展。