大规模语言模型引导的文档选择

Jun, 2024

Large Language Model-guided Document Selection

Xiang Kong, Tom Gunter, Ruoming Pang

TL;DRLLM 预训练模型通过精心选择文档，可以在仅使用部分 FLOPs 的情况下实现与完整训练相当的模型质量；通过使用提示的 LLM 作为文档评分器，我们将质量标签提取并应用于大规模的互联网抓取数据集，以自动筛除部分文档，从而更好地匹配性能，并通过在上下文中学习来提高标签模型的性能。

Abstract

large language model (LLM) pre-training exhausts an ever growing compute budget, yet recent research has demonstrated that careful document selection enables comparable model quality with only a fraction of the <

large language model document selection flops classifier model filtering

发现论文，激发创造

大型语言模型作为注释器：在最小成本下增强 NLP 模型的泛化能力

研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性，并提出一种基于模型预测得分差异的采样策略来重新训练模型，证明在分类和排名任务中取得了显著的精度提高。

Jun, 2023

SelectLLM: LLM 能否选择重要指令进行注释？

通过使用大型语言模型（LLM）和大量多样化的训练指令数据集，本研究提出了一种称为 SelectLLM 的新型方法，利用 LLMs 来选择高质量的指令，并在常见的指令评估中展示出相当或稍微更好的性能。

Jan, 2024

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达 17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023

自动注释中的知识蒸馏：由 LLM 生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

如何培训数据高效的 LLMs

通过数据的有效利用，我们研究了大型语言模型的训练，提出了基于数据选择的技术并优化了模型质量和训练资源的消耗。我们的方法能在最大程度上提高覆盖率和多样性，同时以高效的方式训练模型。

Feb, 2024

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

利用大型语言模型进行临床自然语言处理中基于无知识弱监督的优化

使用弱监督和微调大型语言模型（LLM）的方法，在几乎没有领域知识的情况下，能够在性能上显著优于传统的有限的标准数据的监督方法，利用基于提示的方法，LLM 生成弱标记数据来训练下游的 BERT 模型，然后将弱监督模型进一步在少量的标准数据上进行微调，通过评估发现该方法优于 out-of-the-box PubMedBERT 4.7% 至 47.9% 的 F1 得分。

Jun, 2024

通过知识检测自我训练大型语言模型

该论文研究自训练范式，其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练，以显著改善多个主题中生成中的虚构问题。此外，选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义，解决了训练 LLMs 过程中的关键限制。我们的研究结果表明，这种方法可以大幅减少对大规模标记数据的依赖，为更可伸缩和经济有效的语言模型训练铺平了道路。

Jun, 2024

利用上下文学习高效探索大型语言模型进行文档级机器翻译

通过上下文学习，我们提出了一种上下文感知提示方法（CAP），使得大型语言模型能够通过上下文学习生成更准确、连贯、一致的翻译。CAP 结合多级注意力，在当前句子中选择与之最相关的句子作为上下文，从这些句子中生成一个摘要。随后，从数据存储中检索与摘要最相似的句子作为演示，有效地指导大型语言模型生成连贯一致的翻译。我们在各种文档级机器翻译任务中进行了大量的实验，结果表明我们的方法在零代词翻译（ZPT）和文学翻译任务中特别有效。

Jun, 2024

D4: 通过文档去重和多样化提升 LLM 预训练

通过预先训练模型的嵌入，精心选择数据可加速训练并提高自然语言处理任务的下游准确性，进而对语言模型的预训练方法和性能产生质疑，并展示了在超大规模模型上持续改进模型的可能路径。

Aug, 2023