任务 - 不可知数据估值基础 | BriefGPT

Aug, 2022

任务 - 不可知数据估值基础

Fundamentals of Task-Agnostic Data Valuation

Mohammad Mohammadi Amiri, Frederic Berdoz, Ramesh Raskar

TL;DR本研究通过查询卖家的信息，估算数据的多样性和相关性，使买家能够在没有真实数据的情况下对数据进行评估和购买。

Abstract

We study valuing the data of a data owner/seller for a data seeker/buyer. data valuation is often carried out for a specific task assuming a particular utility metric, such as test accuracy on a validation set, that may not exist in practice. In this work, we focus on →

data valuation task-agnostic diversity relevance queries

发现论文，激发创造

LAVA: 无需预先指定学习算法的数据估值

本文介绍了一种新的数据估值框架，可以在不确定具体学习算法的情况下对数据进行估值，并提出了基于 Wasserstein 距离和敏感性分析的方法来估值，可以检测低质量的数据并在性能方面显著提高。

Apr, 2023

梯度相似性数据评估

通过梯度相似性进行数据估值的方法在识别低质量数据方面表现出良好的效果，并能减少对专业知识和手动干预的需求。

May, 2024

OpenDataVal: 数据价值评估的统一基准

本文介绍了一个易于使用的、统一的基准框架 OpenDataVal，其支持多种数据估价算法的应用和比较，同时提出了四个下游机器学习任务以评估数据价值的质量，并且使用 OpenDataVal 进行基准测试，量化和比较了最先进的数据估价方法的有效性。

Jun, 2023

基于匹配的生成模型数据估值

通过相似度匹配的角度，提出了 Generative Model Valuator (GMValuator) 来作为深度生成模型的第一种模型无关方法，为生成任务提供数据估值策略。此方法是第一种提供无需训练即可进行数据估值的深度生成模型的策略。

Apr, 2023

神经动态数据估值

我们提出了一种名为神经动态数据估值（NDDV）的新型数据估值方法，通过最优控制的视角根据数据最优控制状态的敏感性准确地确定数据估值，同时实施数据重新加权策略以捕捉数据点的独特特征，从而确保公平性，并显著提高计算效率。

Apr, 2024

无需训练模型的数据估值

本文提出了一种基于数据的分数，称为复杂度差距分数，它是一个训练无关的数据估价分数，可以量化个体实例在两层过度参数化神经网络的泛化中的影响，并用于分析数据集和诊断训练动态。

Jan, 2023

分散数据市场的数据测量

去中心化数据市场在机器学习中提供了更公平的数据获取形式。然而，要实现实际的市场，需要研发高效的卖家选择技术。我们提出并基准测试了联邦数据度量方法，以帮助数据买家找到拥有相关和多样化数据集的卖家。多样性和相关性度量使买家能够在不需要中间代理人和训练任务相关模型的情况下进行相对比较。

Jun, 2024

监督学习的公平感知数据估值

FADO 是一个数据评估框架，旨在将公平性考虑到与机器学习相关的任务（如数据预处理、探索性数据分析、主动学习）中，采用基于熵的数据估值指标来最大化性能和公平性，可作为不公平性缓解预处理技术的基础，对于质量较好的数据具有重要意义。

Mar, 2023

网络隐私拍卖

本文研究了以差分隐私为视角的私人数据市场。我们提出了一个理论框架，通过设计拍卖机制，为数据所有者提供合理的隐私损失补偿，并与数据分析师的准确性和预算要求达成平衡。同时，我们证明了在这种场景下，经典的维克里竞拍具有较高的优化效果。

Nov, 2010

DeRDaVa: 机器学习的删除容忍数据估值

数据估值与个人数据所有权、数据保护法规、DeRDaVa 和风险厌恶 / 寻求模型所有者等相关，我们提出了一种数据估值框架 DeRDaVa，并将其推广到 Risk-DeRDaVa，以适应风险厌恶 / 寻求模型所有者的需求，并进行了实证研究。

Dec, 2023