Feb, 2024

使用聚类进行语言模型训练的平衡数据采样

TL;DR在这篇论文中,我们提出了一种名为 ClusterClip Sampling 的数据采样策略,利用数据聚类来平衡训练数据的文本分布以获得更好的模型训练效果。通过基于聚类结果对训练过程中的常见样本和罕见样本进行平衡,以及引入重复剪裁操作来减轻由于特定聚类样本引起的过拟合问题。大量的实验证明了 ClusterClip Sampling 的有效性,在各种训练数据集和大型语言模型上的表现优于随机采样和其他基于聚类的采样变体。