DataCI: 一个用于流式数据的数据中心人工智能平台
本文概述了数据中心人工智能 (Data-centric AI) 的概念以及其在数据质量、模型性能、后续部署及实际应用中的作用,阐明了数据驱动的 AI 设计方法,明确了 6 个指导原则,对未来 DCAI 的发展方向做了方向性解释。
Nov, 2022
本文讨论了数据在构建 AI 系统中的作用,强调了数据质量和可靠性的重要性。作者提出三个任务:培训数据开发、评估数据开发和数据维护,并列举了一些挑战和展望。
Jan, 2023
本文综述了数据驱动人工智能的必要性,以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法,同时讨论了该领域的挑战和各种任务的基准,并提供了一份数据驱动人工智能资源列表。
Mar, 2023
本文提出了用于数据中心机器学习的检查清单框架,以引导从数据收集到系统部署的全过程所必需的注意事项,并强调数据中心人工智能的挑战和研究机会。
Nov, 2022
通过对当前数据市场的调查,揭示了缺乏提供有关数据集的详细信息、透明定价和标准化数据格式的平台,进而提出了基于数据提供者和获取者之间互动建模的 DAM 挑战,验证了在机器学习中有效的数据获取策略的需求。
Nov, 2023
这篇论文介绍了人工智能,特别是深度学习对大量数据进行训练,测试和验证的需求,以及在对数据进行标注方面实现图像生物库的重要性,并讲述了在实现合适的图像数据集合时,需要考虑法律局限和云计算等多方面,最终提出了一种基于混合云实现 AI pipelines 的解决方案。
Jan, 2022
本研究探讨了学术和工业领域中数据的对比角色,突出了数据中心化人工智能和模型不可知人工智能方法之间的差异。我们认为,数据中心化人工智能注重高质量数据对模型性能的重要性,而模型不可知人工智能则更注重算法的灵活性,往往忽视了数据质量的考虑。通过全面分析,我们解决了这些差异带来的挑战,并提出了弥合这一差距的策略。此外,我们提出了一种新的范式:基于模型的数据中心化人工智能,旨在将模型因素纳入数据优化过程中。这种方法强调需要发展对学术研究和工业部署细微差别敏感的数据需求。通过探索这些差异,我们旨在培养对数据在人工智能发展中作用的更加细致的理解,并鼓励学术和工业标准的融合,以增强人工智能在现实世界中的适用性。
Mar, 2024