May, 2023

有影响力的子集选择用于语言模型的告别漫无目的的大规模预训练

TL;DR本文提出了一种基于Influence Subset Selection(ISS)的方法,利用端到端任务知识选择一个较小的语言模型预训练语料库子集,并以较低的计算成本获得与RoBERTa等大型预训练模型相媲美的性能。