Apr, 2024

大型语言模型中的特洛伊木马检测:来自特洛伊木马检测挑战的见解

TL;DR大语言模型(LLMs)在各个领域展示出了显著的能力,但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛 2023(TDC2023)获得的挑战和见解,该竞赛的重点是识别和评估对 LLMs 的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难,以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析,发现实现高召回率比获得高逆向工程攻击成功率(REASR)更具挑战性。竞赛中表现最佳的方法实现了约 0.16 的召回率,与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题,但该竞赛揭示了关于特洛伊检测的可行性和改进 LLM 输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对 LLMs 的鲁棒性和可解释性进行进一步研究的需求。TDC2023 对于特洛伊检测在 LLMs 中的挑战和机遇提供了宝贵的见解,为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。