Jun, 2024

从 LoRA 权重中恢复数据集大小

TL;DR我们引入了一个新的任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。我们提出了 DSiRe 方法,用于恢复用于微调模型的图像数量,并发现 LoRA 矩阵的范数和频谱与微调数据集的大小密切相关,我们利用这一发现提出了一个简单而有效的预测算法。通过开发和发布一个包含 25000 个权重快照的新基准 LoRA-WiSE,我们的最佳分类器可以预测微调图像的数量,平均绝对误差为 0.36 个图像,证明了这种攻击的可行性。