精益数据科学家：克服数据瓶颈的最新进展

Nov, 2022

精益数据科学家：克服数据瓶颈的最新进展

The Lean Data Scientist: Recent Advances towards Overcoming the Data Bottleneck

Chen Shani, Jonathan Zarecki, Dafna Shahaf

TL;DR介绍了如何建立大规模数据集用于机器学习，提出了处理数据瓶颈问题的分类方法，旨在提高社区对这些方法的认识并促进资源的更有效利用。

Abstract

machine learning (ML) is revolutionizing the world, affecting almost every field of science and industry. Recent algorithms (in particular, deep networks) are increasingly data-hungry, requiring →

machine learning deep networks large datasets data bottleneck taxonomy

发现论文，激发创造

AI 竞赛与基准测试：数据集开发

发展机器学习数据集的方法论和实践经验，涵盖数据准备、集合、质量评估等方面。

Apr, 2024

通过行动理解世界

论文阐述了利用强化学习框架和大规模数据集进行无标签学习的思路及其应用。

Oct, 2021

大数据系统应对机器学习挑战：向大数据科学服务发展

介绍大数据科学中使用云计算作为一种实用且成本效益高的解决方案，着重分析软件堆栈的建设模块，为数据科学家提供大数据分析应用的普及服务，为该领域的最新发展和挑战提供各种见解。

Sep, 2017

信息瓶颈问题及其在机器学习中的应用

该论文介绍了信息瓶颈理论作为一种信息理论范例来分析机器学习中使用深度学习等算法进行降维操作的有效性，并总结了其在深度学习理论中的重要性和实际算法的启示。

Apr, 2020

机器学习在科学发现中的机遇

科学界利用机器学习技术进行科学探索的能力正在初生阶段，然而，机器学习的原理应用正在为基础科学发现开辟新的途径，尤其在处理观测数据的复杂性方面。

May, 2024

有意义的机器学习

机器学习的研究应更加关注数据集、评估指标、以及研究结果在学科领域中的传播，作者提出了 6 个目标挑战以促进机器学习的实际应用。

Jun, 2012

分布式机器学习调查

本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担，但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。

Dec, 2019

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

数据会枯竭吗？机器学习中数据集规模扩展的极限分析

本文分析了机器学习的数据集规模在自然语言处理和计算机视觉领域的应用，并应用历史增长率和估算未来预测计算预算的计算最优数据集大小两种方法进行外推。我们通过估算互联网上未标记数据的总库存来调查数据使用量的增长情况。我们的分析表明，高质量语言数据库存将很快耗尽；可能在 2026 年之前。相比之下，低质量语言数据和图像数据的库存将在更晚的时间内耗尽；低质量语言数据将在 2030 年至 2050 年之间耗尽，图像数据将在 2030 年至 2060 年之间耗尽。我们的工作表明，如果不大幅改善数据效率或找到新的数据来源，依赖巨大数据集的不断增长的机器学习模型的当前趋势可能会放缓。

Oct, 2022

机器学习的数据预算

本文将数据预算问题研究为两个子问题：预测给定足够数据的饱和性能，以及需要多少数据点才能接近饱和性能。相较于传统的数据独立方法，提出了一种基于学习的方法，并通过 383 个 ML 数据集的经验评估表明，可以仅用 50 个数据点的小型研究数据集进行数据预算。

Oct, 2022