大语言模型时代的数据中心化人工智能

Jun, 2024

大语言模型时代的数据中心化人工智能

Data-Centric AI in the Age of Large Language Models

Xinyi Xu, Zhaoxuan Wu, Rui Qiao, Arun Verma, Yao Shu...

TL;DR本篇论文提出了以数据为中心的人工智能研究视角，着重于大型语言模型。我们首先观察到在 LLM 的发展阶段（如预训练和微调）和推理阶段（如上下文学习）中，数据起着重要作用，但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景，涵盖数据中心的基准和数据策划、数据属性、知识传递以及推理上下文化。在每个情景中，我们强调了数据的重要性，突出了有前景的研究方向，并阐述了对研究社区和整个社会可能产生的影响。例如，我们提倡为 LLM 的规模和复杂性量身定制一套以数据为中心的基准。这些基准可用于开发新的数据策划方法、记录研究工作和结果，有助于促进人工智能和 LLM 研究的开放性和透明度。

Abstract

This position paper proposes a data-centric viewpoint of AI research, focusing on large language models (LLMs). We start by making the key observation that data is instrumental in the developmental (e.g., pretrai

data-centric large language models benchmarks data curation inference contextualization

发现论文，激发创造

数据中心的人工智能：一项调查

本文综述了数据驱动人工智能的必要性，以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法，同时讨论了该领域的挑战和各种任务的基准，并提供了一份数据驱动人工智能资源列表。

Mar, 2023

利用大型语言模型自动演化工业数据中心研发周期

利用大语言模型（LLMs）让工业数据驱动研发循环自动演化的愿景。

Oct, 2023

面向数据的金融大型语言模型

通过数据中心的方法，我们提出了一种能够更好地处理金融任务的金融 LLM（FLLM）模型，通过多任务提示优化来对数据进行预处理和预理解，并通过推断增强推理（AAR）自动生成训练数据，实验结果表明，我们的数据中心 FLLM 模型显著优于基于原始文本的金融 LLMs，在金融分析和解释任务上达到了最新水平，我们还开源了一个新的金融分析和解释基准，这种方法为解锁 LLMs 在复杂现实领域的潜力提供了希望。

Oct, 2023

增强语言模型数据整合的学习

本篇论文研究了大型语言模型的局限性，提出了使用外部数据访问技术扩展语言模型的解决方法，并将其与数据集成的研究进行了比较，探讨了研究路径的启示。

Apr, 2023

数据科学教育应如何处理大型语言模型？

大型语言模型 (Large Language Models, LLMs) 的迅猛发展正在革新数据科学和统计学，该论文旨在探讨 LLMs 对于数据科学教育的潜在机遇、资源和挑战，以及其在数据科学中的作用转变和创造性应用。

Jul, 2023

数据中心的 AI 能从数据和 ML 工程中学到什么？

讨论数据与机器学习工程的重要性以及如何应用于数据中心人工智能领域。

Dec, 2021

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

Ziya2：数据为中心的学习对 LLM 来说就足够了

提出了 Ziya2 模型，使用数据为中心的优化方法来增强其在不同阶段的学习过程，通过在多个基准测试中的显著优异表现，展示了 Ziya2 相较于其他模型以及开源模型的有希望的结果。

Nov, 2023

战略数据排序：通过课程学习提升大型语言模型性能

通过课程学习的数据中心培训策略，根据数据的不同指标进行排序可以提高大型语言模型的性能，而无需增加模型大小或数据集容量，从而解决大型语言模型培训中的可扩展性挑战。

May, 2024