Dec, 2023

评估大型语言模型安全性的因果分析

TL;DR这项研究提出了一个轻量级因果分析框架,应用于大型语言模型,分析其存在的安全问题,尤其是对抗性扰动和特洛伊攻击,并发现了对模型造成有害提示过拟合的现象,以及一种有效的特洛伊攻击方法。