iDAT: 逆蒸馏适配器调整

Mar, 2024

iDAT: inverse Distillation Adapter-Tuning

Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Daize Dong, Suncheng Xiang...

TL;DR通过利用逆向蒸馏适配器调优（iDAT）框架，将 Adapter-Tuning 方法和知识蒸馏相结合，我们成功地改进了微调性能，并实验证明了该方法的有效性。

Abstract

adapter-tuning (AT) method involves freezing a pre-trained model and introducing trainable adapter modules to acquire downstream knowledge, thereby calibrating the model for better adaptation to downstream tasks. This paper proposes a →

adapter-tuning distillation framework knowledge acquisition inverse distillation adapter-tuning fine-tuning performance

发现论文，激发创造

AAT：音频变换器在不同声学识别任务中的应用

提出了一种名为 AAT 的基于 Adapter 调谐的高效微调方法，通过冻结音频 Transformer 模型并插入额外可学习的 Adapter，在不损害模型原始普适性的基础上，有效地获取下游任务知识。大量实验证明，该方法在仅优化 7.118% 的参数的情况下，实现了与完全微调相媲美甚至更优的性能，并显示了对其他微调方法的优越性。

Jan, 2024

AdapterDistillation: 无损任务组合与知识蒸馏

通过引入少量任务特定参数到每个 transformer 层中，利用多任务的知识，在最近广受关注的语言模型中，被称为 adapters。然而，为了实现知识组合，增加额外的融合层不仅增加推理时间，也对某些应用不具有可扩展性。为了避免这些问题，我们提出了一种名为 AdapterDistillation 的两阶段知识蒸馏算法。在第一阶段，我们通过使用本地数据训练一个学生适配器来提取任务特定的知识。在第二阶段，我们将现有的教师适配器的知识蒸馏到学生适配器中，以帮助其推理。在面向任务的对话系统中频繁提问的检索方面的大量实验证实了 AdapterDistillation 的效率。我们展示了 AdapterDistillation 在准确性、资源消耗和推理时间等方面优于现有算法。

Dec, 2023

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的 token-level 解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。

May, 2023

对抗鲁棒蒸馏的间接梯度匹配

使用间接梯度蒸馏模块（IGDM）通过匹配学生的输入梯度和教师的输入梯度来改善对抗性模型的性能，实验证明 IGDM 与现有的蒸馏方法无缝集成，显著提高了所有蒸馏方法的性能。

Dec, 2023

针对 ViT 适应的参数和推理效率的动态调整

现有的参数高效微调（PEFT）方法通过提高参数效率，在视觉变换器（ViTs）适应中取得了显著的成功，然而，在适应过程中改善推理效率的探索仍未充分开展，这限制了预训练 ViT 模型的广泛应用，特别是在计算上耗费较多的情况下。在本文中，我们提出了一种名为动态调整 (DyT) 的新方法，来改善 ViT 适应的参数和推理效率。具体而言，除了使用轻量级适配器模块外，我们还提出了一个标记分发器，用于区别信息丰富的标记和不重要的标记，从而使后者动态跳过原始块，减少推理过程中的冗余计算。此外，我们探索了多种设计变体以找到 DyT 的最佳实践。最后，受混合专家（MoE）机制的启发，我们引入了一个增强的适配器以进一步提高适应性能。我们在包括图像 / 视频识别和语义分割在内的各种任务中验证了 DyT。例如，在 VTAB-1K 基准测试中，DyT 在触发 71％-85％的 FLOPs 的情况下实现了与现有 PEFT 方法相当或甚至更优越的性能。

Mar, 2024

AdaDistill：用于深度人脸识别的自适应知识蒸馏

使用自适应知识蒸馏方法 AdaDistill 在深度人脸识别中，通过利用高性能教师模型的知识来提高紧凑学生模型的性能。AdaDistill 将知识蒸馏概念嵌入到带有蒸馏类中心的边际惩罚 softmax 损失中，通过在训练迭代中控制学生的学习能力进展来相对调整蒸馏的知识，无需调整任何超参数。大量实验证明了 AdaDistill 可以增强学生的判别学习能力，并在多个具有挑战性的基准测试中展示了对各种最先进竞争者的优越性。

Jul, 2024

InFiConD：基于概念的知识蒸馏的交互式无代码微调

本研究提出了一种名为 InFiConD 的新框架，通过利用视觉概念实现知识蒸馏过程并实现后续的零代码微调学生模型，从而解决了在计算资源有限的环境中部署大型预训练模型的挑战。研究通过提取来自概念语料库的文本对齐视觉概念来构建高度可解释的线性学生模型，并通过用户界面直接操作概念影响来进行交互式微调，通过实验证明 InFiConD 的方法有效地创建和分析学生模型，理解知识如何转移，并高效地执行微调操作，从而使知识蒸馏和后续的零代码微调更加易于访问和适应更广泛的领域专家。

Jun, 2024

IDAdapter: 学习混合特征以实现无需调参的文本到图像模型个性化

IDAdapter 是一种无需微调的方法，通过在生成过程中结合文本和视觉注入以及面部身份损失，从单个人脸图像中增强个性化图像生成的多样性和身份保留。通过将特定身份的多个参考图像的混合特征融入训练阶段，丰富相关身份的内容细节，指导模型生成具有比以往作品更多样的风格、表情和角度的图像。广泛的评估显示了我们方法的有效性，在生成的图像中实现了多样性和身份保真度。

Mar, 2024

人脸反翻拍的双教师知识蒸馏与领域对齐

本文提出了一种用于人脸反欺诈的领域对抗攻击方法，通过对输入图像添加扰动使其在领域间不可区分从而实现领域对齐；此外，结合领域对抗攻击与双教师知识蒸馏，开发了一种具有领域对齐的双教师知识蒸馏框架用于人脸反欺诈。在公共数据集上进行大量的消融研究和与最先进方法的比较结果验证了我们提出方法的优势。

Jan, 2024

重视感知的自适应数据集蒸馏

我们提出了一种新颖的数据集精炼方法，可以构建小型信息丰富的数据集，以保留大型原始数据集的信息。这种方法可以改善数据集精炼的性能，通过自动分配不同网络参数的重要性权重来合成更加稳健的精炼数据集，在多个基准数据集上表现优于其他最先进的数据集精炼方法，并在跨架构泛化方面胜过它们。此外，我们实验证明了自适应权重的有效性，并在 COVID-19 检测等现实世界医学应用中验证了 IADD 的有效性。

Jan, 2024