大规模语言模型的数据管理：一项调查

Dec, 2023

大规模语言模型的数据管理：一项调查

Data Management For Large Language Models: A Survey

Zige Wang, Wanjun Zhong, Yufei Wang, Qi Zhu, Fei Mi...

TL;DR数据管理在大型语言模型的训练中起着基础性的作用，本文调查了数据管理在预训练和有监督微调阶段的各个方面，包括数据数量、数据质量、领域 / 任务组成等，为构建强大的大型语言模型提供了指导资源。

Abstract

Data plays a fundamental role in the training of large language models (LLMs). Effective data management, particularly in the formulation of a well-suited →

data management large language models training dataset model performance supervised fine-tuning

发现论文，激发创造

大型语言模型的数据集：综述

该研究论文对大型语言模型数据集进行了综述和分类，包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面；此外还提供了现有数据集资源的综合评估，涵盖 8 个语言类别和 32 个领域，包括来自 444 个数据集的统计信息，共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据；旨在为研究人员提供整个 LLM 文本数据集的全貌，并为未来的研究做出贡献。

Feb, 2024

LLM 指导调优的数据选择调查

通过介绍使用的指导数据集，提出了数据选择方法的新分类，并详细介绍了最近的研究进展、评估策略和结果，强调了这一任务的挑战和新的前沿。

Feb, 2024

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

理解大型语言模型开发背后的数据集实践者

对于发展中的大型语言模型，数据集从业人员的职责是什么？这篇论文通过回顾性分析和半结构化访谈，发现数据质量是最重要的因素，但对于数据质量的定义和评估方法缺乏一致性，论文讨论了这一现象的潜在原因和整合的机会。

Feb, 2024

战略数据排序：通过课程学习提升大型语言模型性能

通过课程学习的数据中心培训策略，根据数据的不同指标进行排序可以提高大型语言模型的性能，而无需增加模型大小或数据集容量，从而解决大型语言模型培训中的可扩展性挑战。

May, 2024

Dial-insight：用高质量领域专用数据进行精细调整，防止能力崩溃的大型语言模型

我们提出了一个双阶段方法来构建高质量数据的生产提示，通过该方法可以增强一般大型语言模型的特定领域能力，而不损害其总体泛化能力。

Mar, 2024

在 LLMs 中平衡专业和通用技能：现代调谐和数据策略的影响

介绍了用于微调和评估大型语言模型（LLMs）用于专门的货币化任务的多方面方法论，目标是在一般语言能力和领域特定技能之间实现平衡。方法论有三个主要组成部分：1）在微调过程中精心混合领域内和通用数据，以实现一般能力和专业能力之间的最佳平衡；2）设计全面的评估框架，包含 45 个问题，旨在评估在功能相关维度（如可靠性、一致性和商业影响）上的表现；3）分析模型大小和持续训练对度量指标的影响，以指导在微调过程中的高效资源分配。本文详细介绍了所提出框架的设计、数据收集、分析技术和验证结果，旨在为企业和研究人员提供行动洞察，以有效地使 LLMs 适应专门的环境。我们还打算公开全面的评估框架，其中包括 45 个量身定制的问题及其相应的评分指南，以促进 LLMs 在专门任务上的透明度与合作。

Oct, 2023

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

大语言模型时代的数据中心化人工智能

本篇论文提出了以数据为中心的人工智能研究视角，着重于大型语言模型。我们首先观察到在 LLM 的发展阶段（如预训练和微调）和推理阶段（如上下文学习）中，数据起着重要作用，但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景，涵盖数据中心的基准和数据策划、数据属性、知识传递以及推理上下文化。在每个情景中，我们强调了数据的重要性，突出了有前景的研究方向，并阐述了对研究社区和整个社会可能产生的影响。例如，我们提倡为 LLM 的规模和复杂性量身定制一套以数据为中心的基准。这些基准可用于开发新的数据策划方法、记录研究工作和结果，有助于促进人工智能和 LLM 研究的开放性和透明度。

Jun, 2024

高效大型语言模型：综述

大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力，并有潜力对我们的社会产生重大影响。然而，这些能力所需的资源相当可观，强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果，从模型中心、数据中心和框架中心的角度，将文献进行了分类整理。我们还创建了一个 GitHub 存储库，在这个存储库中收集了本调研中涉及的论文，并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源，帮助他们系统地了解高效大型语言模型的研究进展，并激励他们为这个重要而激动人心的领域做出贡献。

Dec, 2023