机器学习的数据预算

Oct, 2022

Data Budgeting for Machine Learning

Xinyi Zhao, Weixin Liang, James Zou

TL;DR本文将数据预算问题研究为两个子问题：预测给定足够数据的饱和性能，以及需要多少数据点才能接近饱和性能。相较于传统的数据独立方法，提出了一种基于学习的方法，并通过 383 个 ML 数据集的经验评估表明，可以仅用 50 个数据点的小型研究数据集进行数据预算。

Abstract

Data is the fuel powering AI and creates tremendous value for many domains. However, collecting datasets for AI is a time-consuming, expensive, and complicated endeavor. For practitioners, data investment remains to be a leap of faith in practice. In this work, we study the

data budgeting ai datasets data investment learning method ml datasets

发现论文，激发创造

预算训练：重新思考资源约束下的深度神经网络训练

本文引入了一个形式化的训练模式：在有限资源（预算）约束下的训练，分析了在此模式下的学习率调整方法，通过在多个任务数据集上的实验验证了线性衰减方法的优秀表现，并强调了在该模式下的预算收敛现象的重要性。

May, 2019

应用自适应抽取算法解决数据市场环境下的预算分配和收益分配问题

该研究介绍了一种新算法，以线性时间同时解决预算分配和收入分配问题，并采用自适应抽样过程选择贡献最大的数据提供者培训模型，从而为实现实际数据市场铺平了道路。

Jun, 2023

精益数据科学家：克服数据瓶颈的最新进展

介绍了如何建立大规模数据集用于机器学习，提出了处理数据瓶颈问题的分类方法，旨在提高社区对这些方法的认识并促进资源的更有效利用。

Nov, 2022

机器学习数据收集优化

本研究提出了一种新的数据收集框架，使用 Learn-Optimize-Collect 算法最小化未来预期成本，有效降低了多个分类、分割和检测任务中未达到预期性能目标的风险，同时保持低总收集成本。

Oct, 2022

通过主动数据采购实现低成本学习

本研究致力于设计在线数据采购机制，旨在使代理人能够通过使用过去的数据主动定价以购买未来的数据，同时即使代理人透露数据的成本取决于数据本身，也能给出学习保证。我们的算法和分析是构建在无悔学习模型上的，具备基于预算约束条件下的风险控制保证，且使用的主要资源是金钱。

Feb, 2015

数据会枯竭吗？机器学习中数据集规模扩展的极限分析

本文分析了机器学习的数据集规模在自然语言处理和计算机视觉领域的应用，并应用历史增长率和估算未来预测计算预算的计算最优数据集大小两种方法进行外推。我们通过估算互联网上未标记数据的总库存来调查数据使用量的增长情况。我们的分析表明，高质量语言数据库存将很快耗尽；可能在 2026 年之前。相比之下，低质量语言数据和图像数据的库存将在更晚的时间内耗尽；低质量语言数据将在 2030 年至 2050 年之间耗尽，图像数据将在 2030 年至 2060 年之间耗尽。我们的工作表明，如果不大幅改善数据效率或找到新的数据来源，依赖巨大数据集的不断增长的机器学习模型的当前趋势可能会放缓。

Oct, 2022

需要多少数据？第 2 部分：预测深度学习类别的训练数据集大小

通过考虑每个类别的训练样例数量而非整体训练样例数量，本文提出了一种预测机器学习分类模型性能的算法，并应用于 CIFAR10 和 EMNIST 数据集，以解决由此引发的组合问题。

Mar, 2024

数据受限的语言模型的扩展

本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果，并提出了可衡量计算优化性的缩放规律，并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。

May, 2023

我需要多少更多的数据？—— 预估下游任务的需求

本文研究机器学习系统的数据需求估计问题，通过探究一系列广义幂律函数来更准确地估计数据集规模与目标性能之间的关系，并通过引入校正因子和多轮数据采集策略来优化数据需求估计模型，从而实现开发时间和数据获取成本的节省。

Jul, 2022

时间与数据价值

本文研究了数据的时效性对机器学习模型准确性和商业价值的影响，发现随着时间的推移，数据的价值会递减，与此同时包括更多的过时数据可能会降低模型的准确性，并提出了在历史数据与新数据之间寻求平衡的增长策略。

Mar, 2022