Oct, 2024

扩大会员推断的规模:大语言模型上的攻击何时以及如何成功

TL;DR本研究解决了大语言模型中的会员推断攻击(MIA)在以往研究中表现不佳的问题。我们提出了一种新的评估基准,通过同时测试多份文档,验证现有MIA方法在更大规模下的有效性。最重要的发现是,当前的MIA方法在训练好的大语言模型中首次实现了成功的会员推断。