Feb, 2023

通过重要性重采样进行语言模型数据选择

TL;DR本文介绍了一种基于重要性重采样的数据选择算法,该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域(例如维基百科)和特定领域的语言模型时,该算法能够显着提高模型的性能。