Jul, 2024

保护多轮对话语言模型免受分布式后门触发器攻击

TL;DR研究了多轮对话的大型语言模型的安全性,特别关注数据污染后门攻击、上下文驱动的攻击和分布式后门触发攻击,提出了基于对比解码的新型防御机制。