Oct, 2022

数据会枯竭吗?机器学习中数据集规模扩展的极限分析

TL;DR本文分析了机器学习的数据集规模在自然语言处理和计算机视觉领域的应用,并应用历史增长率和估算未来预测计算预算的计算最优数据集大小两种方法进行外推。我们通过估算互联网上未标记数据的总库存来调查数据使用量的增长情况。我们的分析表明,高质量语言数据库存将很快耗尽;可能在 2026 年之前。相比之下,低质量语言数据和图像数据的库存将在更晚的时间内耗尽;低质量语言数据将在 2030 年至 2050 年之间耗尽,图像数据将在 2030 年至 2060 年之间耗尽。我们的工作表明,如果不大幅改善数据效率或找到新的数据来源,依赖巨大数据集的不断增长的机器学习模型的当前趋势可能会放缓。