使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求,并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法,展示了该方法在各种任务中的优越性和快速性,为经济高效的微调奠定了基础。
May, 2024
本文提出了一种基于 Influence Subset Selection(ISS)的方法,利用端到端任务知识选择一个较小的语言模型预训练语料库子集,并以较低的计算成本获得与 RoBERTa 等大型预训练模型相媲美的性能。
May, 2023
使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器,解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题,提高了模型的训练效率。
Aug, 2023
研究论文通过开发一种高效的在线数据混合算法(ODM),结合了数据选择和数据混合的元素,优化了训练过程中的数据混合比例,提高了大型语言模型的性能。
Dec, 2023
该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域,旨在为新老研究人员提供入门点,加速数据选择领域的进展。
Feb, 2024
大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集,以训练一个挂起的微调模型进而得到一个选择性增强模型,以提高模型性能并加快训练进程。通过深入的分析和综述,我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率,但在设计选择算法时应避免引入额外的噪声信息,并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。
Jun, 2024
通过利用基础语言模型进行自主数据选择,改进语言模型在数学推理方面的能力,我们引入了一种创新的策略。该策略利用元提示语言模型作为零 - shot 验证器,自主评估和选择高质量的数学内容。我们发布了一个经过筛选的开源 AutoMathText 数据集,包含超过 200GB 的数据。我们将 7B 参数的 Mistral 语言模型连续预训练于 AutoMathText 数据集上,与以前的连续预训练工作相比,下游性能显著提高,并且标记数量大幅减少。我们的方法比基准方法提高了 2 倍的预训练标记效率,突显了我们方法在增强模型数学推理能力方面的潜力。AutoMathText 数据集可在此 https URL 获取,代码可在此 https URL 获取。
通过基于样本学习百分比的训练数据选择,我们展示了当前语言模型具备自主选择高质量训练数据的能力,这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。
本文讲述了如何在特定领域的 BERT 模型中使用社交媒体文本进行预训练,通过相似度计算筛选出有效的预训练数据,并实验验证了在推特和论坛文本上进行预训练的模型可以提高下游任务的效果。
Oct, 2020
利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集,避免主观标准,并明确了学习过程如何利用训练数据进行目标任务的预测,从而极大地提高了语言模型的性能。
Jan, 2024