有效图数据估值的优先级约束冬季价值
本文介绍了一种新的数据估值框架,可以在不确定具体学习算法的情况下对数据进行估值,并提出了基于 Wasserstein 距离和敏感性分析的方法来估值,可以检测低质量的数据并在性能方面显著提高。
Apr, 2023
本文提出了基于图形建模和解决方案的方法,以应对矿产资产评估和矿山规划调度与优化中的供应和需求不确定性。通过三个基于图形的解决方案,取得了大规模工业采矿复合物中原始次优性,执行时间和迭代次数的三个数量级降低,并且矿产资产价值增长了最多 40%。
Dec, 2022
使用隐私保护方法进行数据估值的联邦学习研究,借助 Wasserstein 距离提供透明数据评估和有效计算 Wasserstein barycenter 以减少对验证数据的依赖,并通过广泛的实证实验和理论分析展示了该估值指标的研究前景。
Nov, 2023
我们介绍了一种高效数据估值框架 EcoVal,通过确定类似数据点的群集的价值,并在其成员间传播,以快速而实用的方式估计机器学习模型的数据价值。我们将模型的性能建模为一个生产函数,通过估计每个数据的内在和外在价值来确定整体数据价值。我们通过提供正式证明和阐明加速性能的原理和机制,展示了该方法在实际应用中对于分布内和样本外数据的有效性。该研究解决了机器学习模型中规模化高效数据估值的核心挑战之一。
Feb, 2024
我们提出了一种名为神经动态数据估值(NDDV)的新型数据估值方法,通过最优控制的视角根据数据最优控制状态的敏感性准确地确定数据估值,同时实施数据重新加权策略以捕捉数据点的独特特征,从而确保公平性,并显著提高计算效率。
Apr, 2024
本研究提出一种考虑数据公正价值的方法,通过估算数据 Shapley 值来解决在监督学习中评估数据价值的困难,并且发现该方法优于其他流行的评估方法,可以有效提高预测器的性能。
Apr, 2019
通过相似度匹配的角度,提出了 Generative Model Valuator (GMValuator) 来作为深度生成模型的第一种模型无关方法,为生成任务提供数据估值策略。此方法是第一种提供无需训练即可进行数据估值的深度生成模型的策略。
Apr, 2023
数据评估在近年来引起了越来越多的关注,鉴于高质量数据在各种应用中的重要作用,特别是在机器学习任务中。本文探讨了全局和局部价值分布的特征,提出了一种基于所探测到的分布特征的新的数据评估方法,并提出了一种解决动态数据评估问题的新路径,通过制定一个整合全局和局部价值分布信息的优化问题。广泛的实验表明了我们提出方法的有效性和高效性,验证了全局和局部价值分布在数据评估中的重要潜力。
May, 2024
本文提出了一种基于数据的分数,称为复杂度差距分数,它是一个训练无关的数据估价分数,可以量化个体实例在两层过度参数化神经网络的泛化中的影响,并用于分析数据集和诊断训练动态。
Jan, 2023