Aug, 2024

BackdoorLLM:针对大型语言模型的后门攻击综合基准测试

TL;DR本研究解决了大型语言模型(LLM)在文本生成中易受后门攻击的缺口,提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估,研究揭示了LLM中后门的有效性和局限性,旨在提升对后门威胁的认识并推动AI安全的发展。