机器学习数据采集调查：大数据 - AI 集成视角

Nov, 2018

机器学习数据采集调查：大数据 - AI 集成视角

A Survey on Data Collection for Machine Learning: a Big Data -- AI Integration Perspective

Yuji Roh, Geon Heo, Steven Euijong Whang

TL;DR调查报告探讨机器学习和自然语言处理领域中数据收集的现状和挑战，特别关注数据获取、标注和模型优化三个方面，提供技术选择建议，并指出有待研究的问题。

Abstract

data collection is a major bottleneck in machine learning and an active research topic in multiple communities. There are largely two reasons data collection has recently become a critical issue. First, as

data collection machine learning deep learning data management research challenges

发现论文，激发创造

数据采集：面向数据中心的人工智能的新领域

通过对当前数据市场的调查，揭示了缺乏提供有关数据集的详细信息、透明定价和标准化数据格式的平台，进而提出了基于数据提供者和获取者之间互动建模的 DAM 挑战，验证了在机器学习中有效的数据获取策略的需求。

Nov, 2023

AI 竞赛与基准测试：数据集开发

发展机器学习数据集的方法论和实践经验，涵盖数据准备、集合、质量评估等方面。

Apr, 2024

设计数据：机器学习的主动数据收集和迭代

通过将人机交互概念与机器学习技术相结合，我们提出了一种迭代、减少偏差的数据收集方法，包括计划、监测和熟悉数据三个环节，通过实验结果表明，该方法能够使训练出的模型更好地泛化各种群体，并且对于调试数据集非常有效。

Jan, 2023

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

机器学习数据收集优化

本研究提出了一种新的数据收集框架，使用 Learn-Optimize-Collect 算法最小化未来预期成本，有效降低了多个分类、分割和检测任务中未达到预期性能目标的风险，同时保持低总收集成本。

Oct, 2022

档案馆的教训：机器学习中收集社会文化数据的策略

本文强调数据收集是机器学习中一个被忽视的环节，社会文化机器学习可以从档案馆中汲取数据收集方法的经验，以此提高数据收集的公正性、透明度等方面。

Dec, 2019

深度学习和大数据应用的自动数据处理和特征工程：一项调研

现代人工智能（AI）的方法旨在设计可以直接从数据中学习的算法，本文综述了深度学习流程中自动化数据处理任务的方法，包括数据预处理、数据增强和特征工程，并讨论了自动机器学习方法和工具在整个机器学习流程中的优化应用。

Mar, 2024

大规模语言模型的数据管理：一项调查

数据管理在大型语言模型的训练中起着基础性的作用，本文调查了数据管理在预训练和有监督微调阶段的各个方面，包括数据数量、数据质量、领域 / 任务组成等，为构建强大的大型语言模型提供了指导资源。

Dec, 2023

数据中心的人工智能：一项调查

本文综述了数据驱动人工智能的必要性，以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法，同时讨论了该领域的挑战和各种任务的基准，并提供了一份数据驱动人工智能资源列表。

Mar, 2023

精益数据科学家：克服数据瓶颈的最新进展

介绍了如何建立大规模数据集用于机器学习，提出了处理数据瓶颈问题的分类方法，旨在提高社区对这些方法的认识并促进资源的更有效利用。

Nov, 2022