通过密码学变换电路在语言模型中无法激发的后门

Jun, 2024

通过密码学变换电路在语言模型中无法激发的后门

Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits

Andis Draguns, Andrew Gritsevskiy, Sumeet Ramesh Motwani, Charlie Rogers-Smith, Jeffrey Ladish...

TL;DR快速增殖的开源语言模型显著增加了下游后门攻击的风险，而这些后门可以在模型部署期间引入危险行为，并可以逃避传统的网络安全监控系统的检测。本文介绍了一种新型的自回归变压器模型后门，与现有技术相比，具有无法引诱的特点。这种无法引诱性质阻止了防御者触发后门，使得在部署之前无法评估或检测，即使获得完全的白盒访问权限，并使用红队测试或某些形式验证方法等自动化技术。我们展示了我们的新型建构不仅通过使用加密技术具有无法引诱性质，而且具有有利的鲁棒性。我们在实证研究中验证了这些性质，并提供了我们的后门可以抵御最先进的缓解策略的证据。此外，我们扩展了先前的工作，通过展示我们的通用后门在白盒环境中并非完全不可检测，但比一些现有设计更难以检测。通过演示如何将后门无缝集成到变压器模型中，这篇论文从根本上质疑了模型部署前的检测策略的有效性，为AI安全和安全的进攻防御平衡提供了新的见解。

Abstract

The rapid proliferation of open-source language models significantly increases the risks of downstream backdoor attacks. These backdoors can introduce dangerous behaviours during model deployment and can evade de