DoGE: 领域加权与泛化估计

Oct, 2023

DoGE: Domain Reweighting with Generalization Estimation

Simin Fan, Matteo Pagliardini, Martin Jaggi

TL;DR使用 DOmain reweighting with Generalization Estimation (DoGE) 方法，通过基于梯度的泛化估计函数来重新权衡每个领域的样本抽样概率，以达到最终泛化目标，从而提高大型语言模型的泛化能力。在 SlimPajama-6B 数据集上，DoGE 方法在普适泛化目标上获得了更好的平均困惑度和零样本推理准确性，同时在领域外泛化任务中，DoGE 显著降低了目标领域的困惑度。我们还应用了参数选择方案，提高了泛化估计的效率。

Abstract

The coverage and composition of the pretraining data corpus significantly impacts the generalization ability of large language models. Conventionally, the pretraining corpus is composed of various source domains

pretraining data corpus domain weights generalization ability doge generalization estimation

发现论文，激发创造

双重加权领域泛化用于人脸防攻击检测

本研究提出了一种基于双重加权域泛化（DRDG）的人脸反欺诈方法，采用样本和特征双重加权机制来挖掘更多与域无关的特征，以提高模型的泛化性能。实验证实了该方法在人脸反欺诈领域具有可比性和可解释性。

Jun, 2021

DoReMi: 优化数据混合加速语言模型预训练

本篇论文介绍了一种名为 DoReMi 的方法，用于通过预训练数据域的混合比例来提高语言模型性能，该方法先使用集合分布稳健优化（Group DRO）对数据域进行小型代理模型训练来生成域权重，然后使用这些域权重对数据集进行再采样并训练更大的模型。在实验中，该方法提高了在所有域上的 perplexity ，并在几乎不增加训练步骤的情况下将平均 downstream accuracy 提高了 6.5％。

May, 2023

利用域凸博弈改善泛化

本研究提出了一种新的域通用泛化（DG）解决方案，将其重新构建为域之间的凸博弈，以及使用基于超模的正则化项来鼓励每个多样化的域增强模型泛化能力，并构造一个样本筛选器来消除低质量样本的影响，从而证明我们的方法的合理性和有效性。

Mar, 2023

使用预训练模型进行领域泛化，无需微调

本文提出一种新的域泛化范式 —— 专业组合学习，利用固定的预先训练模型，先训练出一个线性标签空间适配器，然后提出一个认识到模型特殊性的集成网络，动态地分配适当的预训练模型来预测每个测试样本，与现有的域泛化方法相比，可以显著提高性能并大大减少可训练参数和时间成本。

Mar, 2022

关于认证和提高对未见领域的泛化能力

本文提出了一种基于分布鲁棒优化的普适认证框架，旨在弥补现有基准数据集在测试时无法全面评估领域通用算法的局限性，并提出了一种训练算法，可以用于改进其认证性能。实证评估表明，该方法显著提高了风险压力下模型的最坏损失，而在基准数据集上并未出现显著的性能下降。

Jun, 2022

目标检测中的域通用化

本篇文章主要讨论对象检测中的领域泛化问题（DGOD），提出了一种综合评估标准对检测器进行评估，并提出了一种名为 Region Aware Proposal reweighTing (RAPT) 的新方法，以消除 RoI 特征内的依赖性。实验表明，我们的方法优于其他最先进的对手。

Mar, 2022

最佳来源前进：通过源特定网络进行域通用化

通过引入多个特定于源域的分类器，利用预测目标样本属于每个源域的概率进行最优融合，并引入一个域不可知组件来支持最终分类器，我们的深度学习模型在两个公共基准测试上表现出很强的泛化能力。

Jun, 2018

分布式鲁棒优化下的随机重新加权梯度下降

本研究提出了一种基于 $f$-divergences 的分布式鲁棒最优化重加权梯度下降技术，通过数据点的重要性加权来提高深度神经网络的性能，该方案具有简单和高效等特点，可用于任何受欢迎的优化算法，并可在诸如分类、噪声标签、领域适应和表格表示学习等各种任务中提高性能。该方法在 DomainBed 和 Tabular 基准测试中的表现比 SOTA 提高了 0.7% 和 1.44%，对 GLUE 基准测试中的 BERT 表现提升了 1.94%，对 ImageNet-1K 中的 ViT 表现提升了 0.9%，证明了该方法的有效性和潜力。

Jun, 2023

学习生成用于域泛化的新领域

本文主要探讨如何通过数据生成器来增加多个源域的多样性提高领域泛化能力，在使用了最优传输的分布偏差模型和循环一致性和分类损失的数据生成器模型中，我们的 L2A-OT（学习通过最优传输增广）方法在四个基准数据集中表现优于当前最先进的 DG 方法。

Jul, 2020

Doge Tickets：通过刮刮乐发现领域通用语言模型

本文为了寻求一种领域通用的语言模型，提出从预训练语言模型中鉴别领域无关的参数，实现利用 Doge tickets 方式来提高文本在不同领域上的推广性能优化。通过实验验证表明，将中性参数组成领域通用的语言模型可以得到更好性能。

Jul, 2022