Oct, 2024

通过期望最大化检测大型语言模型的训练数据

TL;DR本研究针对大型语言模型(LLMs)训练数据不透明的问题,提出了一种新颖的成员推断攻击(MIA)方法EM-MIA,利用期望最大化算法迭代改善成员评分和前缀评分。该方法在WikiMIA数据集上取得了最先进的结果,并通过OLMoMIA基准对MIA方法进行全面评估,推动了该领域的未来研究。