通过重要性重采样进行语言模型数据选择

Feb, 2023

通过重要性重采样进行语言模型数据选择

Data Selection for Language Models via Importance Resampling

Sang Michael Xie, Shibani Santurkar, Tengyu Ma, Percy Liang

TL;DR本文介绍了一种基于重要性重采样的数据选择算法，该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域（例如维基百科）和特定领域的语言模型时，该算法能够显着提高模型的性能。

Abstract

Selecting a suitable training dataset is crucial for both general-domain (e.g., GPT-3) and domain-specific (e.g., Codex) language models (lms). We formalize this data selection problem as selecting a subset of a

lms data selection importance resampling feature space target distribution

发现论文，激发创造

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

DsDm: 使用数据模型的模型感知数据集选择

利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Jan, 2024

大规模语言模型词表筛选在低频词语音识别中的应用

通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略，结合生产语音引擎，利用语言模型融合技术，相对于使用原始语料训练出的语言模型，使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率，并在实时语音搜索流量中得到了有利的侧面对比评估结果。

Mar, 2022

抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集，以训练一个挂起的微调模型进而得到一个选择性增强模型，以提高模型性能并加快训练进程。通过深入的分析和综述，我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率，但在设计选择算法时应避免引入额外的噪声信息，并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。

Jun, 2024

TextGram：迈向更好的领域自适应预训练

衡量和减少大型语言模型训练过程中产生的碳排放量对于绿色人工智能至关重要。我们提出了一种领域自适应数据选择方法 - TextGram，能够有效地从大规模语料库中选择关键数据，并展示了该策略在文本分类任务中相对于其他选择方法的优势。

Apr, 2024

数据选择的熵和边缘得分指标的全面基准评估

在工业规模的环境中，特别是在资源有限的语言中，我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”，并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集，然后进行以评分为基础的选择来增强训练数据实验，与随机选择的基线技术相比，结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。

Nov, 2023

自我引导的数据重新加权用于语言模型预训练

我们提出了 PRESENCE 方法，通过利用自我影响（SI）得分作为样本重要性和预训练的指标来共同重新加权样本，从而促进模型预训练的新颖性和稳定性，填补了在预训练语言模型中采用模型驱动的样本重新加权的重要领域的空白。

Nov, 2023

InPars: 使用大型语言模型的信息检索数据增强

利用大型预训练语言模型作为综合数据生成器，对于信息检索任务的未监督数据的微调，可以使检索器在零样本学习和有监督学习的任务中获得更好的表现

Feb, 2022

從原則出發的數據選擇，為 LLMs 的預熱微調提供更多、花費更少

使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求，并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法，展示了该方法在各种任务中的优越性和快速性，为经济高效的微调奠定了基础。

May, 2024

语言模型预训练的不可简化课程

提出了一种用于大型语言模型预训练的不可约课程算法，通过模拟训练轨迹中的样本损失，以提高学习性，实验证明在各个领域中都能提高验证困惑度，并且降低网络的尖锐度，在 MMLU 基准上表现出更好的 5-shot 准确度。

Oct, 2023