数据中心的人工智能：一项调查

Mar, 2023

Data-centric Artificial Intelligence: A Survey

Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Zhimeng Jiang...

TL;DR本文综述了数据驱动人工智能的必要性，以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法，同时讨论了该领域的挑战和各种任务的基准，并提供了一份数据驱动人工智能资源列表。

Abstract

artificial intelligence (AI) is making a profound impact in almost every domain. A vital enabler of its great success is the availability of abundant and high-quality data for building machine learning models. Re

artificial intelligence data-centric machine learning models training data development inference data development

发现论文，激发创造

以数据为中心的人工智能：观点与挑战

本文讨论了数据在构建 AI 系统中的作用，强调了数据质量和可靠性的重要性。作者提出三个任务：培训数据开发、评估数据开发和数据维护，并列举了一些挑战和展望。

Jan, 2023

数据中心人工智能原则 (DCAI)

本文概述了数据中心人工智能 (Data-centric AI) 的概念以及其在数据质量、模型性能、后续部署及实际应用中的作用，阐明了数据驱动的 AI 设计方法，明确了 6 个指导原则，对未来 DCAI 的发展方向做了方向性解释。

Nov, 2022

大语言模型时代的数据中心化人工智能

本篇论文提出了以数据为中心的人工智能研究视角，着重于大型语言模型。我们首先观察到在 LLM 的发展阶段（如预训练和微调）和推理阶段（如上下文学习）中，数据起着重要作用，但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景，涵盖数据中心的基准和数据策划、数据属性、知识传递以及推理上下文化。在每个情景中，我们强调了数据的重要性，突出了有前景的研究方向，并阐述了对研究社区和整个社会可能产生的影响。例如，我们提倡为 LLM 的规模和复杂性量身定制一套以数据为中心的基准。这些基准可用于开发新的数据策划方法、记录研究工作和结果，有助于促进人工智能和 LLM 研究的开放性和透明度。

Jun, 2024

数据中心的 AI 能从数据和 ML 工程中学到什么？

讨论数据与机器学习工程的重要性以及如何应用于数据中心人工智能领域。

Dec, 2021

以数据为中心的图学习：综述

人工智能发展历史中，高质量数据对各种深度学习模型的影响显著。最近，与基于模型的方法相比，AI 社区的关注重点转向了基于数据的方法，即更好地处理数据以增强神经模型的能力。这项调查从数据为中心的角度全面回顾了图学习方法，并旨在回答两个关键问题：（1）何时修改图数据和（2）如何修改图数据以发掘各种图模型的潜力。我们提出了一个基于图学习流程阶段的新分类法，并强调了处理图数据中不同数据结构（如拓扑、特征和标签）的方法。此外，我们分析了嵌入图数据中的一些潜在问题，并讨论了如何以数据为中心的方式来解决它们。最后，我们提供了一些关于数据为中心的图学习未来发展方向的前景。

Oct, 2023

基于模型的以数据为中心的人工智能：学术理想与工业实用之间的桥梁

本研究探讨了学术和工业领域中数据的对比角色，突出了数据中心化人工智能和模型不可知人工智能方法之间的差异。我们认为，数据中心化人工智能注重高质量数据对模型性能的重要性，而模型不可知人工智能则更注重算法的灵活性，往往忽视了数据质量的考虑。通过全面分析，我们解决了这些差异带来的挑战，并提出了弥合这一差距的策略。此外，我们提出了一种新的范式：基于模型的数据中心化人工智能，旨在将模型因素纳入数据优化过程中。这种方法强调需要发展对学术研究和工业部署细微差别敏感的数据需求。通过探索这些差异，我们旨在培养对数据在人工智能发展中作用的更加细致的理解，并鼓励学术和工业标准的融合，以增强人工智能在现实世界中的适用性。

Mar, 2024

走向以数据为中心的图机器学习：综述与展望

数据中心的人工智能 (Data-centric AI) 是近年来备受关注的研究领域，本文通过深入综述，展望了与图数据相关的数据中心的人工智能的当前努力，并介绍了系统性框架 Data-centric Graph Machine Learning (DC-GML)。最后，文章提出了 DC-GML 领域的未来前景，并提供了导航其进展和应用的见解。

Sep, 2023

DC-Check: 一份数据中心的人工智能清单，指导可靠的机器学习系统开发

本文提出了用于数据中心机器学习的检查清单框架，以引导从数据收集到系统部署的全过程所必需的注意事项，并强调数据中心人工智能的挑战和研究机会。

Nov, 2022

神奇的数据及如何查询它们

本文介绍了一个用于不同数据集整合和查询的统一框架，并在计算机视觉数据集中展示了其在不同情景下的优势。

Jan, 2022

数据中心绿色人工智能：一项探索性实证研究

本文旨在通过实证研究来评估数据集修改对人工智能能源效率的影响。实验结果表明，可以通过仅对数据集进行修改（数据点数和特征数），显著降低（高达 92.16%）能耗并几乎不降低准确性。此外，本文还证明了通过更改算法能够实现节能（高达两个数量级）。研究成果呼吁进一步研究采用数据为中心技术，进一步推动绿色人工智能的普及。

Apr, 2022