Oct, 2023

DataInf: 在经过认证的 LLMs 和扩散模型中高效估计数据影响力

TL;DR我们提出了 DataInf,一种高效的影响力近似计算方法,可用于大规模生成型 AI 模型。通过利用易于计算的闭合形式表达式,DataInf 在计算和内存效率方面优于现有的影响力计算算法。我们的理论分析表明,DataInf 特别适用于 LoRA 等参数效率高的微调技术。通过系统的实证评估,我们表明 DataInf 准确地近似了影响力分数,并且比现有方法快几个数量级。在 RoBERTa-large、Llama-2-13B-chat 和 stable-diffusion-v1.5 模型的应用中,DataInf 能够比其他近似影响力分数更好地识别出影响最大的微调示例,而且可以帮助识别出错误标记的数据点。