如何培训数据高效的 LLMs
LLM 预训练模型通过精心选择文档,可以在仅使用部分 FLOPs 的情况下实现与完整训练相当的模型质量;通过使用提示的 LLM 作为文档评分器,我们将质量标签提取并应用于大规模的互联网抓取数据集,以自动筛除部分文档,从而更好地匹配性能,并通过在上下文中学习来提高标签模型的性能。
Jun, 2024
我们提出了一个针对大型语言模型的成本效益查询分配问题的框架,名为 OptLLM,通过使用多标签分类模型进行性能预测,生成一系列优化解决方案,旨在满足用户的预算限制和性能偏好,包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验,包括文本分类、问答、情感分析、推理和日志解析,实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性,相比其他多目标优化算法,OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。
May, 2024
通过预先训练模型的嵌入,精心选择数据可加速训练并提高自然语言处理任务的下游准确性,进而对语言模型的预训练方法和性能产生质疑,并展示了在超大规模模型上持续改进模型的可能路径。
Aug, 2023
使用以预训练大型语言模型(LLM)为基础的 LLM2LLM 方法,通过数据增强和迭代,显著提高 LLM 在低数据情况下的性能,优于传统的微调和其他数据增强方法,减少了对数据策划的依赖,为更可扩展和高性能的 LLM 解决方案铺平了道路。
Mar, 2024
本文提出了一种统一的数据创建流程,只需一个格式示例,适用于包括传统上问题较多的任务在内的广泛范围,通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好(高达 17.5%),同时在分布内任务上保持可比较的性能,这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。
Oct, 2023
本文提出了两种基于提示的方法,以选择自然语言生成模型生成的高质量问题,旨在解决多样性提高与模型选择的问题。经过自动化和人工评估,结果表明,与贪婪算法相比,我们的方法能够有效地选择更高质量的问题。
Sep, 2022
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果,从模型中心、数据中心和框架中心的角度,将文献进行了分类整理。我们还创建了一个 GitHub 存储库,在这个存储库中收集了本调研中涉及的论文,并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源,帮助他们系统地了解高效大型语言模型的研究进展,并激励他们为这个重要而激动人心的领域做出贡献。
Dec, 2023
该论文研究自训练范式,其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练,以显著改善多个主题中生成中的虚构问题。此外,选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义,解决了训练 LLMs 过程中的关键限制。我们的研究结果表明,这种方法可以大幅减少对大规模标记数据的依赖,为更可伸缩和经济有效的语言模型训练铺平了道路。
Jun, 2024
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
我们开发了一种基于训练数据密度估计的分析语言模型任务性能的方法。通过对有控制介入的细调数据进行释义实验,我们发现支持特定测试查询的训练分布的增加可导致密度的可测增加,这也是干预引起的性能增加的重要预测因素。通过预训练数据的实验,我们可以通过密度测量解释模型困惑度的相当大的方差。我们得出结论,我们的框架能够提供目标模型预测与其训练数据子集的依赖性的统计证据,并且可以更一般地用于表征给定测试任务的训练数据的支持或缺乏支持。
May, 2024