使用聚类进行语言模型训练的平衡数据采样

Feb, 2024

使用聚类进行语言模型训练的平衡数据采样

Balanced Data Sampling for Language Model Training with Clustering

Yunfan Shao, Linyang Li, Zhaoye Fei, Hang Yan, Dahua Lin...

TL;DR在这篇论文中，我们提出了一种名为 ClusterClip Sampling 的数据采样策略，利用数据聚类来平衡训练数据的文本分布以获得更好的模型训练效果。通过基于聚类结果对训练过程中的常见样本和罕见样本进行平衡，以及引入重复剪裁操作来减轻由于特定聚类样本引起的过拟合问题。大量的实验证明了 ClusterClip Sampling 的有效性，在各种训练数据集和大型语言模型上的表现优于随机采样和其他基于聚类的采样变体。

Abstract

Data plays a fundamental role in the training of large language models (LLMs). While attention has been paid to the collection and composition of datasets, determining the data sampling strategy in training remai

large language models data sampling strategy clusterclip sampling data clustering model training

发现论文，激发创造

消除 CLIP 的偏差：多模态学习中数据平衡的实用性如何？

探讨使用数据平衡来减轻对比语言 - 图像预训练（CLIP）中的偏见的有效性，提出了一种名为 Multi-Modal Moment Matching（M4）的新算法，用于减少多模态数据中的表示和关联偏见，并对 CLIP 对偏见的学习和遗忘的动态性进行了分析。

Mar, 2024

多语言神经机器翻译的平衡训练

该论文提出一种利用数据得分器来自动学习如何加权训练数据以最大化所有测试语言性能的方法，优于传统启发式方法，并提供对优化语言的灵活控制。

Apr, 2020

不均衡数据的聚类和学习

本文提出了一种基于聚类的过采样方法（Clustering Based Oversampling），该方法利用少数派样本与其聚类中心点之间的距离来生成新的少数派样本，它在不影响多数派学习的基础上，利用少数派样本的分布结构改善了在类别不平衡数据上的学习，并通过采取措施以防止异常值产生和过度拟合。深度神经网络实验结果表明，与其他合成数据采样技术相比，该方法在不同数据集上的评估指标上表现更好。

Nov, 2018

神经机器翻译对多语言分词训练中的语言不平衡的鲁棒性有多强？

本研究分析研究了多语言经过语言不平衡的训练语料库的分词器，并发现在训练过程中，UNK 率和接近字符级别的特征对于下游任务的性能具有预警作用。同时，该研究还将分词器训练的语言采样与模型训练的采样区分开，并指出模型对后者更为敏感。

Apr, 2022

谨慎的数据筛选稳定上下文学习

本文提出两种方法优化 ICL 在训练过程中因训练样本选择不当而导致的性能不稳定问题：CondAcc 和 Datamodels。这两种方法均通过对训练样本进行评分，然后选择得分最高的样本作为训练子集。在五个任务和两个 LLMs 上进行的实验中，CondAcc 和 Datamodels 的性能分别比从整个训练集中随机抽样高出 7.7％和 6.3％。分析表明，选出的稳定子集样本与平均样本的差异不大，并不是序列长度和 perplexity 的异常值。

Dec, 2022

语音识别自适应多语料语言模型训练

本文提出了一种新颖的自适应多语料库训练算法，该算法可以动态学习和调整每个语料库的采样概率，相较于静态采样策略可使得领域内和领域外的适应任务分别取得相对 7% 和 9% 的字词错误率降低。

Nov, 2022

基于聚类敏感性采样的数据高效学习：基础模型与扩展

我们研究数据选择问题，将利用 $k$-means 聚类和敏感性抽样方法，基于模型损失的嵌入表示，可选择一组典型样本，其平均损失与整个数据集的平均损失相对应，具有可证明的性质，并且在微调基础模型上表现优于最先进的方法，同时展示了它如何应用于线性回归，提供了一个更简单且可扩展性更强的抽样策略。

Feb, 2024

通过自适应取样实现大型语言模型和文本到图像模型的数据高效评估

SubLIME 是一个数据高效评估框架，利用自适应采样技术，如聚类和质量导向方法，创建代表性的基准子集，以确保与完整数据集在模型排名方面具有高皮尔逊相关系数。该框架在评估低资源语言模型和文本到图像模型方面提供了一种灵活且经济高效的解决方案。

Jun, 2024

基于聚类的主动学习与多样性探索缓解标注数据不足问题

该论文提出了一种新的基于聚类的主动学习框架 (ALCS)，其中使用密度聚类方法探索数据的聚类结构，并引入基于双簇边界的样本查询程序以提高高度重叠类别分类的学习性能，此外，我们开发了有效的多样性探索策略来解决样本查询中的冗余问题，实验证明了该方法的有效性。

Jul, 2022

如何培训数据高效的 LLMs

通过数据的有效利用，我们研究了大型语言模型的训练，提出了基于数据选择的技术并优化了模型质量和训练资源的消耗。我们的方法能在最大程度上提高覆盖率和多样性，同时以高效的方式训练模型。

Feb, 2024