Oct, 2023

大型语言模型上的用户推理攻击

TL;DR研究表明,通过对用户数据进行细调的大型语言模型(LLMs)存在用户推测攻击的隐私风险,攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调,通过限制单个用户的细调样本数量可以减少攻击效果,但也会降低细调数据总量。