通过对当前数据市场的调查,揭示了缺乏提供有关数据集的详细信息、透明定价和标准化数据格式的平台,进而提出了基于数据提供者和获取者之间互动建模的 DAM 挑战,验证了在机器学习中有效的数据获取策略的需求。
Nov, 2023
发展机器学习数据集的方法论和实践经验,涵盖数据准备、集合、质量评估等方面。
Apr, 2024
通过将人机交互概念与机器学习技术相结合,我们提出了一种迭代、减少偏差的数据收集方法,包括计划、监测和熟悉数据三个环节,通过实验结果表明,该方法能够使训练出的模型更好地泛化各种群体,并且对于调试数据集非常有效。
Jan, 2023
本文综述了在机器学习中收集和使用数据的许多问题和担忧,并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。
Dec, 2020
本研究提出了一种新的数据收集框架,使用 Learn-Optimize-Collect 算法最小化未来预期成本,有效降低了多个分类、分割和检测任务中未达到预期性能目标的风险,同时保持低总收集成本。
Oct, 2022
本文强调数据收集是机器学习中一个被忽视的环节,社会文化机器学习可以从档案馆中汲取数据收集方法的经验,以此提高数据收集的公正性、透明度等方面。
Dec, 2019
现代人工智能(AI)的方法旨在设计可以直接从数据中学习的算法,本文综述了深度学习流程中自动化数据处理任务的方法,包括数据预处理、数据增强和特征工程,并讨论了自动机器学习方法和工具在整个机器学习流程中的优化应用。
Mar, 2024
数据管理在大型语言模型的训练中起着基础性的作用,本文调查了数据管理在预训练和有监督微调阶段的各个方面,包括数据数量、数据质量、领域 / 任务组成等,为构建强大的大型语言模型提供了指导资源。
Dec, 2023
本文综述了数据驱动人工智能的必要性,以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法,同时讨论了该领域的挑战和各种任务的基准,并提供了一份数据驱动人工智能资源列表。
Mar, 2023
介绍了如何建立大规模数据集用于机器学习,提出了处理数据瓶颈问题的分类方法,旨在提高社区对这些方法的认识并促进资源的更有效利用。
Nov, 2022