机器学习的数据预算
本文引入了一个形式化的训练模式:在有限资源(预算)约束下的训练,分析了在此模式下的学习率调整方法,通过在多个任务数据集上的实验验证了线性衰减方法的优秀表现,并强调了在该模式下的预算收敛现象的重要性。
May, 2019
该研究介绍了一种新算法,以线性时间同时解决预算分配和收入分配问题,并采用自适应抽样过程选择贡献最大的数据提供者培训模型,从而为实现实际数据市场铺平了道路。
Jun, 2023
本研究提出了一种新的数据收集框架,使用 Learn-Optimize-Collect 算法最小化未来预期成本,有效降低了多个分类、分割和检测任务中未达到预期性能目标的风险,同时保持低总收集成本。
Oct, 2022
本研究致力于设计在线数据采购机制,旨在使代理人能够通过使用过去的数据主动定价以购买未来的数据,同时即使代理人透露数据的成本取决于数据本身,也能给出学习保证。我们的算法和分析是构建在无悔学习模型上的,具备基于预算约束条件下的风险控制保证,且使用的主要资源是金钱。
Feb, 2015
本文分析了机器学习的数据集规模在自然语言处理和计算机视觉领域的应用,并应用历史增长率和估算未来预测计算预算的计算最优数据集大小两种方法进行外推。我们通过估算互联网上未标记数据的总库存来调查数据使用量的增长情况。我们的分析表明,高质量语言数据库存将很快耗尽;可能在 2026 年之前。相比之下,低质量语言数据和图像数据的库存将在更晚的时间内耗尽;低质量语言数据将在 2030 年至 2050 年之间耗尽,图像数据将在 2030 年至 2060 年之间耗尽。我们的工作表明,如果不大幅改善数据效率或找到新的数据来源,依赖巨大数据集的不断增长的机器学习模型的当前趋势可能会放缓。
Oct, 2022
通过考虑每个类别的训练样例数量而非整体训练样例数量,本文提出了一种预测机器学习分类模型性能的算法,并应用于 CIFAR10 和 EMNIST 数据集,以解决由此引发的组合问题。
Mar, 2024
本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果,并提出了可衡量计算优化性的缩放规律,并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。
May, 2023
本文研究机器学习系统的数据需求估计问题,通过探究一系列广义幂律函数来更准确地估计数据集规模与目标性能之间的关系,并通过引入校正因子和多轮数据采集策略来优化数据需求估计模型,从而实现开发时间和数据获取成本的节省。
Jul, 2022
本文研究了数据的时效性对机器学习模型准确性和商业价值的影响,发现随着时间的推移,数据的价值会递减,与此同时包括更多的过时数据可能会降低模型的准确性,并提出了在历史数据与新数据之间寻求平衡的增长策略。
Mar, 2022