机器学习数据收集优化

Oct, 2022

Optimizing Data Collection for Machine Learning

Rafid Mahmood, James Lucas, Jose M. Alvarez, Sanja Fidler, Marc T. Law

TL;DR本研究提出了一种新的数据收集框架，使用 Learn-Optimize-Collect 算法最小化未来预期成本，有效降低了多个分类、分割和检测任务中未达到预期性能目标的风险，同时保持低总收集成本。

Abstract

Modern deep learning systems require huge data sets to achieve impressive performance, but there is little guidance on how much or what kind of data to collect. Over-collecting data incurs unnecessary present costs

deep learning data collection performance targets costs learn-optimize-collect

发现论文，激发创造

机器学习数据采集调查：大数据 - AI 集成视角

调查报告探讨机器学习和自然语言处理领域中数据收集的现状和挑战，特别关注数据获取、标注和模型优化三个方面，提供技术选择建议，并指出有待研究的问题。

Nov, 2018

设计数据：机器学习的主动数据收集和迭代

通过将人机交互概念与机器学习技术相结合，我们提出了一种迭代、减少偏差的数据收集方法，包括计划、监测和熟悉数据三个环节，通过实验结果表明，该方法能够使训练出的模型更好地泛化各种群体，并且对于调试数据集非常有效。

Jan, 2023

分布式机器学习中的数据收集委派

通过对去中心化机器学习生态系统的兴起的研究，我们研究了数据采集的委派。以契约理论为出发点，我们设计了能够处理两个基本机器学习挑战的最优和近似最优契约：模型质量评估的不确定性和关于任何模型最优性能的缺乏知识。我们展示了可以通过简单的线性契约解决不确定性问题，即使主体只有一个小的测试集合，也能达到第一优的收益的 1-1/e 的分数。此外，我们给出了主体测试集合大小的足够条件，以获得对最优效用的逼近。为了解决对最优性能缺乏先验知识的问题，我们提出了一个能够自适应高效计算最优契约的凸规划方法。

Sep, 2023

机器学习的数据预算

本文将数据预算问题研究为两个子问题：预测给定足够数据的饱和性能，以及需要多少数据点才能接近饱和性能。相较于传统的数据独立方法，提出了一种基于学习的方法，并通过 383 个 ML 数据集的经验评估表明，可以仅用 50 个数据点的小型研究数据集进行数据预算。

Oct, 2022

深度学习中的数据优化：一项调查

通过对现有文献中的数据优化方法进行分类整理和建立联系，本研究旨在构建一个全面的深度学习数据优化方法分类体系，并探索未来的研究方向。

Oct, 2023

自主驾驶模拟中的主动数据采集

本文提出了一种主动数据收集策略来改善自主驾驶算法中需要的数据集质量问题，实验结果表明该策略可以显著降低标注成本和数据集大小，提高数据集质量，从而提高自主驾驶系统的性能。

Jun, 2023

通过主动数据采购实现低成本学习

本研究致力于设计在线数据采购机制，旨在使代理人能够通过使用过去的数据主动定价以购买未来的数据，同时即使代理人透露数据的成本取决于数据本身，也能给出学习保证。我们的算法和分析是构建在无悔学习模型上的，具备基于预算约束条件下的风险控制保证，且使用的主要资源是金钱。

Feb, 2015

自适应数据采集的政策学习

本文探讨在自适应数据收集环境下如何使用基于加权的估计算法来学习最优策略，提出了基于广义增强的倾向性加权（AIPW）估计器的算法，并建立了有限样本遗憾上限，证明最优权重方案下，算法即使在减少探索数据的情况下也能实现最小化的遗憾保证。

May, 2021

档案馆的教训：机器学习中收集社会文化数据的策略

本文强调数据收集是机器学习中一个被忽视的环节，社会文化机器学习可以从档案馆中汲取数据收集方法的经验，以此提高数据收集的公正性、透明度等方面。

Dec, 2019

应用深度学习中的开放问题

本文探讨了如何通过双层优化问题来优化机器学习机制，并讨论了如何通过自动机器学习（AutoML）等方法来减少迭代步骤的计算成本，以及减少开发人工智能算法的碳足迹。作者还提出了在不同领域中解决这些问题的方法。

Jan, 2023