Nov, 2022
精益数据科学家:克服数据瓶颈的最新进展
The Lean Data Scientist: Recent Advances towards Overcoming the Data Bottleneck
Chen Shani, Jonathan Zarecki, Dafna Shahaf
TL;DR介绍了如何建立大规模数据集用于机器学习,提出了处理数据瓶颈问题的分类方法,旨在提高社区对这些方法的认识并促进资源的更有效利用。
Abstract
machine learning (ML) is revolutionizing the world, affecting almost every
field of science and industry. Recent algorithms (in particular, deep networks)
are increasingly data-hungry, requiring →
发现论文,激发创造
大数据系统应对机器学习挑战:向大数据科学服务发展
介绍大数据科学中使用云计算作为一种实用且成本效益高的解决方案,着重分析软件堆栈的建设模块,为数据科学家提供大数据分析应用的普及服务,为该领域的最新发展和挑战提供各种见解。
Sep, 2017
信息瓶颈问题及其在机器学习中的应用
该论文介绍了信息瓶颈理论作为一种信息理论范例来分析机器学习中使用深度学习等算法进行降维操作的有效性,并总结了其在深度学习理论中的重要性和实际算法的启示。
Apr, 2020
分布式机器学习调查
本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担,但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。
Dec, 2019
数据会枯竭吗?机器学习中数据集规模扩展的极限分析
本文分析了机器学习的数据集规模在自然语言处理和计算机视觉领域的应用,并应用历史增长率和估算未来预测计算预算的计算最优数据集大小两种方法进行外推。我们通过估算互联网上未标记数据的总库存来调查数据使用量的增长情况。我们的分析表明,高质量语言数据库存将很快耗尽;可能在 2026 年之前。相比之下,低质量语言数据和图像数据的库存将在更晚的时间内耗尽;低质量语言数据将在 2030 年至 2050 年之间耗尽,图像数据将在 2030 年至 2060 年之间耗尽。我们的工作表明,如果不大幅改善数据效率或找到新的数据来源,依赖巨大数据集的不断增长的机器学习模型的当前趋势可能会放缓。
Oct, 2022
机器学习的数据预算
本文将数据预算问题研究为两个子问题:预测给定足够数据的饱和性能,以及需要多少数据点才能接近饱和性能。相较于传统的数据独立方法,提出了一种基于学习的方法,并通过 383 个 ML 数据集的经验评估表明,可以仅用 50 个数据点的小型研究数据集进行数据预算。
Oct, 2022