以数据为中心的人工智能：观点与挑战

Jan, 2023

以数据为中心的人工智能：观点与挑战

Data-centric AI: Perspectives and Challenges

Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Xia Hu

TL;DR本文讨论了数据在构建 AI 系统中的作用，强调了数据质量和可靠性的重要性。作者提出三个任务：培训数据开发、评估数据开发和数据维护，并列举了一些挑战和展望。

Abstract

The role of data in building AI systems has recently been significantly magnified by the emerging concept of data-centric ai (DCAI), which advocates a fundamental shift from model advancements to ensuring data quality

data-centric ai data quality training data evaluation data data maintenance

发现论文，激发创造

数据中心人工智能原则 (DCAI)

本文概述了数据中心人工智能 (Data-centric AI) 的概念以及其在数据质量、模型性能、后续部署及实际应用中的作用，阐明了数据驱动的 AI 设计方法，明确了 6 个指导原则，对未来 DCAI 的发展方向做了方向性解释。

Nov, 2022

数据中心的人工智能：一项调查

本文综述了数据驱动人工智能的必要性，以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法，同时讨论了该领域的挑战和各种任务的基准，并提供了一份数据驱动人工智能资源列表。

Mar, 2023

数据采集：面向数据中心的人工智能的新领域

通过对当前数据市场的调查，揭示了缺乏提供有关数据集的详细信息、透明定价和标准化数据格式的平台，进而提出了基于数据提供者和获取者之间互动建模的 DAM 挑战，验证了在机器学习中有效的数据获取策略的需求。

Nov, 2023

DC-Check: 一份数据中心的人工智能清单，指导可靠的机器学习系统开发

本文提出了用于数据中心机器学习的检查清单框架，以引导从数据收集到系统部署的全过程所必需的注意事项，并强调数据中心人工智能的挑战和研究机会。

Nov, 2022

基于模型的以数据为中心的人工智能：学术理想与工业实用之间的桥梁

本研究探讨了学术和工业领域中数据的对比角色，突出了数据中心化人工智能和模型不可知人工智能方法之间的差异。我们认为，数据中心化人工智能注重高质量数据对模型性能的重要性，而模型不可知人工智能则更注重算法的灵活性，往往忽视了数据质量的考虑。通过全面分析，我们解决了这些差异带来的挑战，并提出了弥合这一差距的策略。此外，我们提出了一种新的范式：基于模型的数据中心化人工智能，旨在将模型因素纳入数据优化过程中。这种方法强调需要发展对学术研究和工业部署细微差别敏感的数据需求。通过探索这些差异，我们旨在培养对数据在人工智能发展中作用的更加细致的理解，并鼓励学术和工业标准的融合，以增强人工智能在现实世界中的适用性。

Mar, 2024

数据中心的 AI 能从数据和 ML 工程中学到什么？

讨论数据与机器学习工程的重要性以及如何应用于数据中心人工智能领域。

Dec, 2021

人工智能的系统挑战：伯克利视角

该论文探讨了人工智能的发展带来的挑战，提出了在系统、架构和安全方面的研究方向，以解决 AI 技术存储和处理数据量的限制，并提高数据隐私保护，以便这一技术能够更好地改善人们的生活和社会。

Dec, 2017

走向可解释人工智能（XAI）：数据挖掘视角

通过数据挖掘方法和应用的角度，对深度神经网络进行可解释人工智能（XAI）的综合、数据中心的研究，并将现有工作分为三类：对深层模型的解释、对训练数据的影响以及领域知识的洞察。

Jan, 2024

大语言模型时代的数据中心化人工智能

本篇论文提出了以数据为中心的人工智能研究视角，着重于大型语言模型。我们首先观察到在 LLM 的发展阶段（如预训练和微调）和推理阶段（如上下文学习）中，数据起着重要作用，但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景，涵盖数据中心的基准和数据策划、数据属性、知识传递以及推理上下文化。在每个情景中，我们强调了数据的重要性，突出了有前景的研究方向，并阐述了对研究社区和整个社会可能产生的影响。例如，我们提倡为 LLM 的规模和复杂性量身定制一套以数据为中心的基准。这些基准可用于开发新的数据策划方法、记录研究工作和结果，有助于促进人工智能和 LLM 研究的开放性和透明度。

Jun, 2024

用数据为中心的方法训练深度神经网络减少数据

本论文总结了在数据中心人工智能比赛中的获胜结论，提出了针对小数据集训练的质量增强方法和基于生成对抗网络的数据点生成解决方案，并指出该管道生成的数据集在比基准要小的情况下提高了 5% 的准确度。

Oct, 2021