SMoA: 减轻多个数据集偏见的稀疏适配器混合

Feb, 2023

SMoA: 减轻多个数据集偏见的稀疏适配器混合

SMoA: Sparse Mixture of Adapters to Mitigate Multiple Dataset Biases

Yanchen Liu, Jing Yan, Yan Chen, Jing Liu, Hua Wu

TL;DR通过提出稀疏的自适应器混合 (SMoA) 方法，可以更有效地解决多个数据集的偏差，进而提高自然语言推理和近义词鉴定任务的表现，并且 SMoA 方法的可解释性有助于捕捉训练数据中的特定模式并用来处理特定的偏差。

Abstract

Recent studies reveal that various biases exist in different nlp tasks, and over-reliance on biases results in models' poor generalization

nlp biases debiasing smoa interpretability

发现论文，激发创造

通过适配器的软混合高效微调音频频谱变换器

本论文旨在探索 Mixture of Experts（MoE）在参数高效微调音频光谱变换器用于音频和语音下游任务时的应用，提出了基于适配器的软混合专家方法（Soft-MoA），通过将输入令牌和专家之间进行软分配，不仅保持了计算时间的限制，而且在四项基准测试中表现出了优异的性能，并且与密集 MoA 方法相媲美。实验还验证了 Soft-MoA 的关键组成部分，例如更多的专家可以实现更好的扩展性，并确保所有专家都对输出令牌的计算做出贡献，从而消除了专家不平衡问题。

Feb, 2024

分割与合并：通过稀疏训练释放视觉适配器的潜力

通过提出混合稀疏适配器（MoSA）作为一种新颖的适配器调整方法，旨在充分发挥每个适配器参数的潜力，本研究对一系列 27 个视觉任务进行了广泛实验证明，MoSA 始终比其他适配器调整方法和基准线方法表现更好，并在低资源和多任务设置的两个具有挑战性的场景中展现了令人满意的结果。

Dec, 2023

透过 AdapterFusion 实现参数高效，模块化的偏置缓解

本研究提出了一种名为 DAM 的去偏见方法，通过 Adapter 模块的集成，实现去偏见的独立功能，该方法在三个分类任务中，具有效性、增加了公平性、同时保持了核心模型的效能。

Feb, 2023

探索使用混合低秩适配器训练异构数据

通过采用低秩适配器的混合方法 (MoLA) 来训练统一模型以应对来自不同领域或任务的异构数据，以解决多目标的训练冲突，实现人工智能的整体性。实验表明，MoLA 优于先前的最先进方法，并对其工作机制进行了深入分析。

Jun, 2024

面向任务定制的图像融合多适配器混合模型

我们提出了一个新颖的任务定制混合适配器（TC-MoA）用于一般图像融合，通过自适应地促进统一模型中的各种融合任务，解决了由于显著的跨任务差异导致的性能有限的问题。我们的 TC-MoA 超越了竞争方法，在学习共同性方面表现出更好的性能，并在保留对一般图像融合（多模态、多曝光和多焦距）的兼容性的同时，对更广泛的泛化实验展示了令人惊叹的可控性。

Mar, 2024

稳健自然语言推理中的模型无关去偏策略的实证研究

本文探索了多种方法使自然语言推理模型具有鲁棒性，包括模型去偏，数据增强等，并提供了性能较好的模型集成方法。

Oct, 2020

行动识别中的减轻表征偏见：算法与基准

本文研究基于算法和数据集两个角度的方法，提出 Spatial-aware Multi-Aspect Debiasing（SMAD）算法和 OmniDebias 数据集平衡方法，以应对目前现有数据集偏差问题，从而实现更好的物体检测和场景识别效果。

Sep, 2022

探索稀疏专家混合模型在多领域神经机器翻译中的潜力

我们关注多领域神经机器翻译，旨在开发能够处理训练期间见过的各种领域数据并对未见过的领域具有鲁棒性的高效模型。我们假设稀疏专家混合（SMoE）模型非常适合这个任务，因为它们能够实现高效的模型扩展，有助于适应各种多领域数据，并允许领域间参数的灵活共享，从而可能实现类似领域之间的知识传递，并限制负面传递。我们进行了一系列实验证实 SMoE 在多领域场景中的效用，并发现在实践中，对 Transformer 进行简单的宽度扩展是一种更简洁且出人意料地高效的方法，其达到了与 SMoE 相同的性能水平。我们还寻求多领域系统的更好鲁棒性方法，强调了混合通用领域（如 Paracrawl）的重要性，并引入了一种简单的技术，即领域随机化。

Jul, 2024

MoA: 自动大规模语言模型压缩的稀疏注意力混合

稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求，我们提出了混合注意力（MoA），它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置，通过优化稀疏注意力压缩方案，MoA 在保持平均注意力范围不变的情况下，将有效上下文长度提高 3.9 倍，并在多个评估指标上取得 1.5-7.1 倍的准确性提升，在 GPU 内存减少 1.2-1.4 倍的同时，提升解码吞吐量 5.5-6.7 倍。

Jun, 2024

多模态情感分析的一般去偏方法

通过减少模型对虚假相关性的依赖，我们提出了一个基于逆概率加权的通用去偏方法，以提升多模态情感分析模型的超出分布泛化能力。通过解耦每种模态的鲁棒特征和偏倚特征，并利用偏倚特征估计偏倚，我们使用逆概率加权来减少对大偏倚样本的影响，从而促进情感预测的鲁棒特征学习。实证结果证明了我们提出的框架具有优越的泛化能力。

Jul, 2023