DoReMi: 优化数据混合加速语言模型预训练

May, 2023

DoReMi: 优化数据混合加速语言模型预训练

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu...

TL;DR本篇论文介绍了一种名为 DoReMi 的方法，用于通过预训练数据域的混合比例来提高语言模型性能，该方法先使用集合分布稳健优化（Group DRO）对数据域进行小型代理模型训练来生成域权重，然后使用这些域权重对数据集进行再采样并训练更大的模型。在实验中，该方法提高了在所有域上的 perplexity ，并在几乎不增加训练步骤的情况下将平均 downstream accuracy 提高了 6.5％。

Abstract

The mixture proportions of pretraining data domains (e.g., Wikipedia, books, web text) greatly affect language model (LM) performance. In this paper, we propose Domain Reweighting with Minimax Optimization (doremi

pretraining data domains language model performance doremi proxy model group distributionally robust optimization

发现论文，激发创造

DoGE: 领域加权与泛化估计

使用 DOmain reweighting with Generalization Estimation (DoGE) 方法，通过基于梯度的泛化估计函数来重新权衡每个领域的样本抽样概率，以达到最终泛化目标，从而提高大型语言模型的泛化能力。在 SlimPajama-6B 数据集上，DoGE 方法在普适泛化目标上获得了更好的平均困惑度和零样本推理准确性，同时在领域外泛化任务中，DoGE 显著降低了目标领域的困惑度。我们还应用了参数选择方案，提高了泛化估计的效率。

Oct, 2023

RegMix: 以数据混合作为语言模型预训练的回归方法

使用回归模型自动识别高性能的数据混合，通过联合所有领域一起考虑以捕捉复杂性，RegMix 方法超过人工选择，并且仅使用 10％的计算预算实现与 DoReMi 相比匹配或更好的结果。

Jul, 2024

DEMix Layers: 模块化语言建模中的领域解耦

该研究介绍了一种新的域专家混合层 (DEMix)，能够使语言模型 (LM) 与输入文本的领域相适应。DEMix 层是由专家前馈网络组成的集合，每个专家网络专门处理一个领域，使得 LM 模块化：专家可以在初始训练后混合、添加或删除。该模型在自回归变压器 LM 上进行了广泛的实验 (高达 1.3B 参数)，结果表明 DEMix 层降低了测试时间内的困惑度，提高了训练效率，并允许快速适应而不会增加负担。同时显示，在推断时混合专家，使用无参数加权集成，使模型更好地推广到异构或未见领域。实验还表明，可以添加专家来逐步合并新领域，而不会遗忘旧领域，而且还可以删除专家以限制对不需要的领域的访问，而无需额外的训练。总之，这些结果表明，显式地依赖文本领域进行的语言建模具有益处。

Aug, 2021

DALLMi: 基于 LLM 的多标签分类器的领域自适应

DALLMi 是一种基于 BERT 的半监督领域适应方法，通过利用 BERT 词嵌入的插值，结合有限的正标记和大量无标记的文本，使用新颖的变分损失和 MixUp 正则化进行域适应学习，以及引入标签平衡采样策略来克服有标记和无标记数据之间的不平衡。在三个数据集上，DALLMi 的平均准确率（mAP）比无监督和部分监督方法分别高出 19.9% 和 52.2%。

May, 2024

语言模型预训练的高效在线数据混合

研究论文通过开发一种高效的在线数据混合算法（ODM），结合了数据选择和数据混合的元素，优化了训练过程中的数据混合比例，提高了大型语言模型的性能。

Dec, 2023

域和相关性分离建模用于可适应的密集检索

提出一种名为 Disentangled Dense Retrieval（DDR）的新型 Dense Retrieval 框架来支持 DR 模型的有效和灵活的领域自适应，该框架包括一个 Relevance Estimation Module（REM）和几个 Domain Adaption Modules（DAMs），通过使 REM 和 DAMs 分离，DDR 实现了一种灵活的训练范式，在不同的领域和语言中都表现出比强大的 DR 基线更好的排名性能。

Aug, 2022

通过重要性重采样进行语言模型数据选择

本文介绍了一种基于重要性重采样的数据选择算法，该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域（例如维基百科）和特定领域的语言模型时，该算法能够显着提高模型的性能。

Feb, 2023

动态数据混合最大化专家混合模型的指令调优

基于混合专家模型（Mixture-of-Experts），提出了一种动态数据混合的处理方法以优化模型性能，通过动态地调整训练数据的采样权重，减少数据集中的冗余，从而在有限的训练预算下最大化整体性能。

Jun, 2024

具有关联感知混合专家的通用人员重新识别

本研究提出了一种关注不同域之间相关性的专家混合方法以提高 Domain generalizable 人物重识别的性能，利用多个来源域的数据，提取特征并将其融合，最终通过投票机制完成。实验结果表明，该方法优于现有的方法。

May, 2021

面向多领域不平衡数据的领域感知对比知识转移

本文研究了多领域不平衡学习（MIL）的情形，提出了一种名为 DCMI 的领域感知对比知识传递方法来鼓励正向传递相似领域间的共享领域知识并最小化来自不同领域的负向传递。在三个不同的数据集上评估了 DCMI 的性能，展示了不同的 MIL 方案中显著的改进。

Apr, 2022