数据中心的 AI 能从数据和 ML 工程中学到什么？

Dec, 2021

数据中心的 AI 能从数据和 ML 工程中学到什么？

What can Data-Centric AI Learn from Data and ML Engineering?

Neoklis Polyzotis, Matei Zaharia

TL;DR讨论数据与机器学习工程的重要性以及如何应用于数据中心人工智能领域。

Abstract

data-centric ai is a new and exciting research topic in the AI community, but many organizations already build and maintain various "data-centric" applications whose goal is to produce high quality data. These range from traditional business →

data-centric ai data and ml engineering production ml systems data processing applications ml platforms

发现论文，激发创造

数据中心的人工智能：一项调查

本文综述了数据驱动人工智能的必要性，以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法，同时讨论了该领域的挑战和各种任务的基准，并提供了一份数据驱动人工智能资源列表。

Mar, 2023

数据中心人工智能原则 (DCAI)

本文概述了数据中心人工智能 (Data-centric AI) 的概念以及其在数据质量、模型性能、后续部署及实际应用中的作用，阐明了数据驱动的 AI 设计方法，明确了 6 个指导原则，对未来 DCAI 的发展方向做了方向性解释。

Nov, 2022

走向以数据为中心的图机器学习：综述与展望

数据中心的人工智能 (Data-centric AI) 是近年来备受关注的研究领域，本文通过深入综述，展望了与图数据相关的数据中心的人工智能的当前努力，并介绍了系统性框架 Data-centric Graph Machine Learning (DC-GML)。最后，文章提出了 DC-GML 领域的未来前景，并提供了导航其进展和应用的见解。

Sep, 2023

大语言模型时代的数据中心化人工智能

本篇论文提出了以数据为中心的人工智能研究视角，着重于大型语言模型。我们首先观察到在 LLM 的发展阶段（如预训练和微调）和推理阶段（如上下文学习）中，数据起着重要作用，但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景，涵盖数据中心的基准和数据策划、数据属性、知识传递以及推理上下文化。在每个情景中，我们强调了数据的重要性，突出了有前景的研究方向，并阐述了对研究社区和整个社会可能产生的影响。例如，我们提倡为 LLM 的规模和复杂性量身定制一套以数据为中心的基准。这些基准可用于开发新的数据策划方法、记录研究工作和结果，有助于促进人工智能和 LLM 研究的开放性和透明度。

Jun, 2024

基于模型的以数据为中心的人工智能：学术理想与工业实用之间的桥梁

本研究探讨了学术和工业领域中数据的对比角色，突出了数据中心化人工智能和模型不可知人工智能方法之间的差异。我们认为，数据中心化人工智能注重高质量数据对模型性能的重要性，而模型不可知人工智能则更注重算法的灵活性，往往忽视了数据质量的考虑。通过全面分析，我们解决了这些差异带来的挑战，并提出了弥合这一差距的策略。此外，我们提出了一种新的范式：基于模型的数据中心化人工智能，旨在将模型因素纳入数据优化过程中。这种方法强调需要发展对学术研究和工业部署细微差别敏感的数据需求。通过探索这些差异，我们旨在培养对数据在人工智能发展中作用的更加细致的理解，并鼓励学术和工业标准的融合，以增强人工智能在现实世界中的适用性。

Mar, 2024

DC-Check: 一份数据中心的人工智能清单，指导可靠的机器学习系统开发

本文提出了用于数据中心机器学习的检查清单框架，以引导从数据收集到系统部署的全过程所必需的注意事项，并强调数据中心人工智能的挑战和研究机会。

Nov, 2022

以数据为中心的人工智能：观点与挑战

本文讨论了数据在构建 AI 系统中的作用，强调了数据质量和可靠性的重要性。作者提出三个任务：培训数据开发、评估数据开发和数据维护，并列举了一些挑战和展望。

Jan, 2023

数据工程与 AI 系统的映射研究

AI 系统需要数据，而 AI 数据工程可以为组织提供帮助。本文通过进行数据工程的映射研究，总结了 AI 数据工程活动的论文，包括各个生命周期阶段、技术解决方案和教训，为从业者和研究人员提供了知识概览。

Feb, 2024

以数据为中心的图学习：综述

人工智能发展历史中，高质量数据对各种深度学习模型的影响显著。最近，与基于模型的方法相比，AI 社区的关注重点转向了基于数据的方法，即更好地处理数据以增强神经模型的能力。这项调查从数据为中心的角度全面回顾了图学习方法，并旨在回答两个关键问题：（1）何时修改图数据和（2）如何修改图数据以发掘各种图模型的潜力。我们提出了一个基于图学习流程阶段的新分类法，并强调了处理图数据中不同数据结构（如拓扑、特征和标签）的方法。此外，我们分析了嵌入图数据中的一些潜在问题，并讨论了如何以数据为中心的方式来解决它们。最后，我们提供了一些关于数据为中心的图学习未来发展方向的前景。

Oct, 2023

为基于模型的 AI 工程开启自动化机器学习

本文提出了一种新方法，支持自动化机器学习，帮助软件工程师在不需要深入了解人工智能的情况下，选择适当的机器学习模型、算法和技术以及适当的超参数来开发人工智能密集型系统，并进行智能能源领域的案例研究。

Mar, 2022