Jun, 2024

大语言模型时代的数据中心化人工智能

TL;DR本篇论文提出了以数据为中心的人工智能研究视角,着重于大型语言模型。我们首先观察到在 LLM 的发展阶段(如预训练和微调)和推理阶段(如上下文学习)中,数据起着重要作用,但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景,涵盖数据中心的基准和数据策划、数据属性、知识传递以及推理上下文化。在每个情景中,我们强调了数据的重要性,突出了有前景的研究方向,并阐述了对研究社区和整个社会可能产生的影响。例如,我们提倡为 LLM 的规模和复杂性量身定制一套以数据为中心的基准。这些基准可用于开发新的数据策划方法、记录研究工作和结果,有助于促进人工智能和 LLM 研究的开放性和透明度。