Apr, 2025
探索针对大型语言模型增强推荐系统的后门攻击与防御
Exploring Backdoor Attack and Defense for LLM-empowered Recommendations
TL;DR本研究针对大型语言模型(LLM)驱动的推荐系统(RecSys)在后门攻击下的安全性缺乏探索的问题,提出了一种新的攻击框架“后门注入污染推荐系统”(BadRec),通过注入特定触发器来操控推荐结果。研究发现仅需对训练数据的1%进行污染即可成功植入后门,并提出了一种通用防御策略“污染扫描器”(P-Scanner),利用LLM强大的语言理解能力来检测被污染项,有效应对安全威胁。