SAVA: 可伸缩的学习无偏数据估值

Jun, 2024

SAVA: Scalable Learning-Agnostic Data Valuation

Samuel Kessler, Tam Le, Vu Nguyen

TL;DRSAVA 是 LAVA 算法的可扩展变体，通过对数据点的批处理进行运算来解决大规模数据集的数据估值任务。

Abstract

Selecting suitable data for training machine learning models is crucial since large, web-scraped, real datasets contain noisy artifacts that affect the quality and relevance of individual data points. These artifacts will impact the performance and generalization of the model. We formu

data valuation machine learning models optimal transport lava algorithm sava

发现论文，激发创造

LAVA: 无需预先指定学习算法的数据估值

本文介绍了一种新的数据估值框架，可以在不确定具体学习算法的情况下对数据进行估值，并提出了基于 Wasserstein 距离和敏感性分析的方法来估值，可以检测低质量的数据并在性能方面显著提高。

Apr, 2023

梯度相似性数据评估

通过梯度相似性进行数据估值的方法在识别低质量数据方面表现出良好的效果，并能减少对专业知识和手动干预的需求。

May, 2024

OpenDataVal: 数据价值评估的统一基准

本文介绍了一个易于使用的、统一的基准框架 OpenDataVal，其支持多种数据估价算法的应用和比较，同时提出了四个下游机器学习任务以评估数据价值的质量，并且使用 OpenDataVal 进行基准测试，量化和比较了最先进的数据估价方法的有效性。

Jun, 2023

大数据聚类草图与验证

本文提出了一种用于大数据分析的高效聚类框架 ——SkeVa family，它包括基于 k 均值聚类和核函数聚类的算法，并使用随机采样和一致性 (RANSAC) 思想进行降维和集合简化。此外还引入了一种基于离散度准则的算法。通过在大规模数据集上的实验，发现这些算法与最先进的随机投影方案相比，具有非常良好的竞争性能。

Jan, 2015

监督学习的公平感知数据估值

FADO 是一个数据评估框架，旨在将公平性考虑到与机器学习相关的任务（如数据预处理、探索性数据分析、主动学习）中，采用基于熵的数据估值指标来最大化性能和公平性，可作为不公平性缓解预处理技术的基础，对于质量较好的数据具有重要意义。

Mar, 2023

数据 - OOB: 作为简单高效数据价值的袋外估计

提出了一种名为 Data-OOB 的新数据评估方法，利用袋装模型的袋外估计，它具有高效的计算性能和可扩展性，可以在大型数据集上进行评估，并且表现出色优于现有的数据评估方法，对于识别有帮助或有害的数据点在实际应用中具有潜在的应用价值。

Apr, 2023

通过数据选择探索实世界图像分类中的数据冗余

提出了两种基于神经突触智能和梯度范数的数据估值指标，通过在线聚类和基于考察数据值的分组提出了新的数据选择算法。在线方法使用逐层模型参数更新和每个时期梯度高效地评估数据，可以使用更少的时期和数据子集（例如，19％-59％）加速模型训练，同时在各种数据集中保持等价的水平，还可以扩展到离线 Coreset 构建，只生成原始数据的 18％-30％子集。

Jun, 2023

DSV：一种用于自监督离群模型选择的对齐验证损失

本文提出了一种名为 DSV 的无监督验证损失方法，该方法通过近似测试数据的不一致性和可分离性来捕捉增强函数与异常机制之间的对齐度，并能够在 21 个真实世界任务中比多种基线算法表现更好，以选择具有有效增强超参数的高性能异常检测模型。

Jul, 2023

DeRDaVa: 机器学习的删除容忍数据估值

数据估值与个人数据所有权、数据保护法规、DeRDaVa 和风险厌恶 / 寻求模型所有者等相关，我们提出了一种数据估值框架 DeRDaVa，并将其推广到 Risk-DeRDaVa，以适应风险厌恶 / 寻求模型所有者的需求，并进行了实证研究。

Dec, 2023

面向可视化的大型数据库采样

提出了可视化感知采样（VAS）方法，通过优化可视化启发式损失函数，从而在保证可视化质量的基础上，实现对大规模数据集的快速采样。实验表明，VAS 相比现有的方法具有更高的成功率和更快的速度，尤其在回归、密度估计和聚类等场景下。

Oct, 2015