机器学习数据收集优化
调查报告探讨机器学习和自然语言处理领域中数据收集的现状和挑战,特别关注数据获取、标注和模型优化三个方面,提供技术选择建议,并指出有待研究的问题。
Nov, 2018
通过将人机交互概念与机器学习技术相结合,我们提出了一种迭代、减少偏差的数据收集方法,包括计划、监测和熟悉数据三个环节,通过实验结果表明,该方法能够使训练出的模型更好地泛化各种群体,并且对于调试数据集非常有效。
Jan, 2023
通过对去中心化机器学习生态系统的兴起的研究,我们研究了数据采集的委派。以契约理论为出发点,我们设计了能够处理两个基本机器学习挑战的最优和近似最优契约:模型质量评估的不确定性和关于任何模型最优性能的缺乏知识。我们展示了可以通过简单的线性契约解决不确定性问题,即使主体只有一个小的测试集合,也能达到第一优的收益的 1-1/e 的分数。此外,我们给出了主体测试集合大小的足够条件,以获得对最优效用的逼近。为了解决对最优性能缺乏先验知识的问题,我们提出了一个能够自适应高效计算最优契约的凸规划方法。
Sep, 2023
本文将数据预算问题研究为两个子问题:预测给定足够数据的饱和性能,以及需要多少数据点才能接近饱和性能。相较于传统的数据独立方法,提出了一种基于学习的方法,并通过 383 个 ML 数据集的经验评估表明,可以仅用 50 个数据点的小型研究数据集进行数据预算。
Oct, 2022
本文提出了一种主动数据收集策略来改善自主驾驶算法中需要的数据集质量问题,实验结果表明该策略可以显著降低标注成本和数据集大小,提高数据集质量,从而提高自主驾驶系统的性能。
Jun, 2023
本研究致力于设计在线数据采购机制,旨在使代理人能够通过使用过去的数据主动定价以购买未来的数据,同时即使代理人透露数据的成本取决于数据本身,也能给出学习保证。我们的算法和分析是构建在无悔学习模型上的,具备基于预算约束条件下的风险控制保证,且使用的主要资源是金钱。
Feb, 2015
本文探讨在自适应数据收集环境下如何使用基于加权的估计算法来学习最优策略,提出了基于广义增强的倾向性加权(AIPW)估计器的算法,并建立了有限样本遗憾上限,证明最优权重方案下,算法即使在减少探索数据的情况下也能实现最小化的遗憾保证。
May, 2021
本文强调数据收集是机器学习中一个被忽视的环节,社会文化机器学习可以从档案馆中汲取数据收集方法的经验,以此提高数据收集的公正性、透明度等方面。
Dec, 2019
本文探讨了如何通过双层优化问题来优化机器学习机制,并讨论了如何通过自动机器学习(AutoML)等方法来减少迭代步骤的计算成本,以及减少开发人工智能算法的碳足迹。作者还提出了在不同领域中解决这些问题的方法。
Jan, 2023