大规模语言模型的数据管理:一项调查
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖 8 个语言类别和 32 个领域,包括来自 444 个数据集的统计信息,共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据;旨在为研究人员提供整个 LLM 文本数据集的全貌,并为未来的研究做出贡献。
Feb, 2024
对于发展中的大型语言模型,数据集从业人员的职责是什么?这篇论文通过回顾性分析和半结构化访谈,发现数据质量是最重要的因素,但对于数据质量的定义和评估方法缺乏一致性,论文讨论了这一现象的潜在原因和整合的机会。
Feb, 2024
通过课程学习的数据中心培训策略,根据数据的不同指标进行排序可以提高大型语言模型的性能,而无需增加模型大小或数据集容量,从而解决大型语言模型培训中的可扩展性挑战。
May, 2024
我们提出了一个双阶段方法来构建高质量数据的生产提示,通过该方法可以增强一般大型语言模型的特定领域能力,而不损害其总体泛化能力。
Mar, 2024
介绍了用于微调和评估大型语言模型(LLMs)用于专门的货币化任务的多方面方法论,目标是在一般语言能力和领域特定技能之间实现平衡。方法论有三个主要组成部分:1)在微调过程中精心混合领域内和通用数据,以实现一般能力和专业能力之间的最佳平衡;2)设计全面的评估框架,包含 45 个问题,旨在评估在功能相关维度(如可靠性、一致性和商业影响)上的表现;3)分析模型大小和持续训练对度量指标的影响,以指导在微调过程中的高效资源分配。本文详细介绍了所提出框架的设计、数据收集、分析技术和验证结果,旨在为企业和研究人员提供行动洞察,以有效地使 LLMs 适应专门的环境。我们还打算公开全面的评估框架,其中包括 45 个量身定制的问题及其相应的评分指南,以促进 LLMs 在专门任务上的透明度与合作。
Oct, 2023
这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式,突出现有研究中的差距,并概述未来研究的前景,以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。
Jun, 2024
本篇论文提出了以数据为中心的人工智能研究视角,着重于大型语言模型。我们首先观察到在 LLM 的发展阶段(如预训练和微调)和推理阶段(如上下文学习)中,数据起着重要作用,但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景,涵盖数据中心的基准和数据策划、数据属性、知识传递以及推理上下文化。在每个情景中,我们强调了数据的重要性,突出了有前景的研究方向,并阐述了对研究社区和整个社会可能产生的影响。例如,我们提倡为 LLM 的规模和复杂性量身定制一套以数据为中心的基准。这些基准可用于开发新的数据策划方法、记录研究工作和结果,有助于促进人工智能和 LLM 研究的开放性和透明度。
Jun, 2024
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果,从模型中心、数据中心和框架中心的角度,将文献进行了分类整理。我们还创建了一个 GitHub 存储库,在这个存储库中收集了本调研中涉及的论文,并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源,帮助他们系统地了解高效大型语言模型的研究进展,并激励他们为这个重要而激动人心的领域做出贡献。
Dec, 2023