從原則出發的數據選擇，為 LLMs 的預熱微調提供更多、花費更少

ICLRMay, 2024

從原則出發的數據選擇，為 LLMs 的預熱微調提供更多、花費更少

Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs

Feiyang Kang, Hoang Anh Just, Yifan Sun, Himanshu Jahagirdar, Yuanzhi Zhang...

TL;DR使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求，并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法，展示了该方法在各种任务中的优越性和快速性，为经济高效的微调奠定了基础。

Abstract

This work focuses on leveraging and selecting from vast, unlabeled, open data to pre-fine-tune a pre-trained language model. The goal is to minimize the need for costly domain-specific data for subsequent fine-tuning while achieving desired →

pre-training data selection fine-tuning performance levels cost-effective

发现论文，激发创造

抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集，以训练一个挂起的微调模型进而得到一个选择性增强模型，以提高模型性能并加快训练进程。通过深入的分析和综述，我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率，但在设计选择算法时应避免引入额外的噪声信息，并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。

Jun, 2024

小型语言模型能为较大语言模型选择调整训练数据

通过基于样本学习百分比的训练数据选择，我们展示了当前语言模型具备自主选择高质量训练数据的能力，这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。

Feb, 2024

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

数据饮食中的 NLU: 动态数据子集选择用于 NLP 分类任务

本研究提出了一种基于动态数据修剪的方法，使用 EL2N 度量和初始微调阶段，在保持完整准确性的同时，可将数据量减少 50%~80% 以大大减少微调时间，并在 GLUE 基准测试和四个联合 NLU 数据集上展现出更好的时间 - 准确性平衡。

Jun, 2023

分析对数据选择和微调对 LLMs 中的经济和政治偏见的影响

本研究探究了大型语言模型中的经济和政治偏见以及调整细节对其产生的影响，通过使用参数效率微调技术，我们介绍了一种系统的数据集选择、注释和指令调整方法，并通过定量和定性评估评估其有效性，旨在讨论 AI 的道德应用，强调将 AI 部署在符合社会价值观的方式上的重要性。

Apr, 2024

跨语言迁移的模型选择

本论文展示了在辅助支点语言中提供少量注释数据可以更好地选择用于零 - shot 跨语言迁移的 fine-tuned models，并提出一种基于机器学习的方法用于模型选择，该方法使用 fine-tuned 模型的内部表示来预测其跨语言能力。在广泛的实验中，我们发现这种方法比使用英文验证数据一直可以跨越二十五种语言（包括八种低资源语言）选择更好的模型，并且通常可以达到使用目标语言开发数据进行模型选择的结果

Oct, 2020

为神经排序模型微调标注数据？当前主动学习策略不如随机选择

本文研究了在有限的训练数据和预算下微调基于预训练语言模型的排序器，发现随机选择不同子集的训练数据进行微调时产生的有效性存在巨大的变化，并探究了主动学习策略在降低标注成本方面的有效性

Sep, 2023

LLM 指导调优的数据选择调查

通过介绍使用的指导数据集，提出了数据选择方法的新分类，并详细介绍了最近的研究进展、评估策略和结果，强调了这一任务的挑战和新的前沿。

Feb, 2024

TextGram：迈向更好的领域自适应预训练

衡量和减少大型语言模型训练过程中产生的碳排放量对于绿色人工智能至关重要。我们提出了一种领域自适应数据选择方法 - TextGram，能够有效地从大规模语料库中选择关键数据，并展示了该策略在文本分类任务中相对于其他选择方法的优势。

Apr, 2024