分散数据市场的数据测量
通过采取联邦方法,提出了一种面向分散市场的数据选择方法,能够在不需要标记的验证数据的情况下,通过优化快速的过程实现更低的预测误差,直接估计获取数据对测试集预测的益处。
Mar, 2024
本文提出了一个数数据市场的基本模型,通过建立一个竞价机制来有效地买卖机器学习任务的训练数据,突破了训练数据不能定价,买卖难以衡量的难题,其中技术贡献包括公平性的计算及组合产品的机制拍卖方式。
May, 2018
本文全面综述了现有数据定价研究的最新进展,通过建立新的数据定价分类方法 —— 基于市场结构的分类,将现有研究归纳和总结,提取了具有代表性的关键属性,包括售卖方、购买方和双边市场中的隐私概念和查询类型,并探讨了现有研究中的缺陷和未来研究方向。
Mar, 2023
通过对当前数据市场的调查,揭示了缺乏提供有关数据集的详细信息、透明定价和标准化数据格式的平台,进而提出了基于数据提供者和获取者之间互动建模的 DAM 挑战,验证了在机器学习中有效的数据获取策略的需求。
Nov, 2023
本文提出了一种名为 DeDES 的新型数据无关多样性算法,以解决机器学习模型市场中想要在无需数据的情况下使用集成学习来改善模型性能时,模型选择问题的存在。实验结果表明,该算法在不同数据集和模型结构下,可以同时实现更好的性能和更高的效率。
Feb, 2023
使用隐私保护方法进行数据估值的联邦学习研究,借助 Wasserstein 距离提供透明数据评估和有效计算 Wasserstein barycenter 以减少对验证数据的依赖,并通过广泛的实证实验和理论分析展示了该估值指标的研究前景。
Nov, 2023
本研究探讨合作机器学习市场的问题,讨论机器学习市场的公平收入分配和潜在威胁,包括数据复制。我们引入了一个新的付款分割功能和定制输出模型,以在具有不同学习任务的方的情况下刺激方提交高质量的训练和验证数据,并在实验中验证了我们理论分析的假设和这些假设的适用性。
Nov, 2019
通过对去中心化机器学习生态系统的兴起的研究,我们研究了数据采集的委派。以契约理论为出发点,我们设计了能够处理两个基本机器学习挑战的最优和近似最优契约:模型质量评估的不确定性和关于任何模型最优性能的缺乏知识。我们展示了可以通过简单的线性契约解决不确定性问题,即使主体只有一个小的测试集合,也能达到第一优的收益的 1-1/e 的分数。此外,我们给出了主体测试集合大小的足够条件,以获得对最优效用的逼近。为了解决对最优性能缺乏先验知识的问题,我们提出了一个能够自适应高效计算最优契约的凸规划方法。
Sep, 2023