基于模块的自适应蒸馏用于多模态基础模型

Oct, 2023

基于模块的自适应蒸馏用于多模态基础模型

Module-wise Adaptive Distillation for Multimodality Foundation Models

Chen Liang, Jiahui Yu, Ming-Hsuan Yang, Matthew Brown, Yin Cui...

TL;DR通过跟踪个别模块的贡献，我们提出了一种改进的 Thompson 抽样算法 OPTIMA，用于解决模型更新导致的模块贡献的非静态性，以最大化总体贡献。

Abstract

pre-trained multimodal foundation models have demonstrated remarkable generalizability but pose challenges for deployment due to their large sizes. One effective approach to reducing their sizes is layerwise distillatio

pre-trained multimodal foundation models layerwise distillation architecture components multi-armed bandit problem optima algorithm

发现论文，激发创造

基于预训练多模态大模型的动态自适应多尺度蒸馏，用于高效的跨模态表示学习

为了在计算资源有限的环境下部署高级多模态技术，我们提出了一种从预训练多模态大模型中动态自适应多尺度蒸馏的方法，通过仅使用输出特征和原始图像级信息来优化模型，显著降低复杂性和训练成本，实现了跨模态检索任务的最先进性能。

Apr, 2024

释放力量：多模态大型语言模型的竞争蒸馏

提出了一种创新的 Competitive Multi-modal Distillation（CoMD）框架，捕捉学生模型和教师模型之间的双向反馈，并不断更新学生模型学到的多模态能力，研究结果表明，我们的知识迁移方法在各种数据集上稳定提升了学生模型的能力，经过四次蒸馏后，7B 大小的学生模型在 ScienceQA 和 LLaVA Test 数据集上超过了当前最先进的 LLaVA-13B 模型，在零样本设置下也优于其他强基线模型。

Nov, 2023

m2mKD：Modular Transformers 的模块到模块知识蒸馏

我们提出了一种模块到模块的知识迁移方法（m2mKD），通过将具有共享元模型的教师模块和学生模块相结合，鼓励学生模块模仿教师模块的行为。在两种不同的模块化神经架构：神经注意电路（NACs）和视觉专家混合（V-MoE）上应用 m2mKD，我们获得了显着改进的分类准确率和鲁棒性。实验结果表明，我们的方法为将模块化网络与预训练的整体模型相连接提供了一种有希望的解决方案。

Feb, 2024

一阶段模态蒸馏用于不完整多模态学习

基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练，但并不总是能在开发场景中获得所有的模态，这给基于不完整模态的推断带来了挑战。为了解决这个问题，本文提出了一个一阶段模态蒸馏框架，通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比，这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络，以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后，我们介绍了模态融合任务的交叉翻译网络，以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明，提出的多模态继承框架可以克服各种场景中不完整模态输入的问题，并实现最先进的性能。

Sep, 2023

M2KD: 多模型、多层次知识蒸馏用于增量学习

本文提出一种多模型和多级别知识蒸馏策略，通过直接利用之前的模型快照和辅助蒸馏等方式，在保留旧类知识的同时提升整体性能，有效解决了旧类性能下降的问题。

Apr, 2019

任务感知分层蒸馏：语言模型压缩的 “减法即增益

本研究提出一种名为 TED 的任务感知分层蒸馏方法，通过使用任务感知滤波器，选取有用于目标任务的知识来减小知识差距，从而在学生和教师之间减小知识差距并帮助学生更好地适应目标任务，在连续预训练和微调的两种情况下，TED 都比现有的蒸馏方法表现出明显且一致的改进。

Oct, 2022

自适应多教师多层级知识蒸馏

我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Mar, 2021

从视觉语言基础模型中提取出超出分布鲁棒性

通过知识蒸馏和数据增强的结合，提出了一个概念简单且轻量级的框架来提高视觉模型的鲁棒性。通过从预训练的基础模型进行蒸馏，我们得出了大型模型并不一定会成为更好的教师的推测并在分布外鲁棒性上取得了显著的改进。基于这一发现，我们提出了离散对抗蒸馏（DAD）的方法，利用鲁棒的教师生成对抗样本并使用 VQGAN 对其离散化，相比于标准的数据增强技术，生成的样本更具信息量。我们提供了一个理论框架来解释在具有数据增强的知识蒸馏中使用鲁棒的教师，并在不同的学生架构中展示了分布外鲁棒性和净精确度的显著改进。值得注意的是，我们的方法与类似技术相比只增加了较小的计算开销，并且可以轻松与其他数据增强技术结合以进一步提高性能。

Nov, 2023

MMANet：针对不完整多模态学习的间隔感知蒸馏和模态感知正则化

本文提出了一种名为 MMANet 的通用框架，用于不完整多模式学习，其中包含三个组件：用于推理的部署网络、将综合多模式信息传输到部署网络的教师网络以及引导部署网络平衡弱模态组合的正则化网络。

Apr, 2023

关于大型预训练模型的任务特定蒸馏的优良实践

大型预训练视觉模型在多样的识别任务上表现出显著的泛化能力。然而，现实世界中的应用通常需要针对特定问题的紧凑模型。本文针对这一目的，提出了各种知识蒸馏的变体，使得特定任务的紧凑模型（学生）能够从通用的大型预训练模型（教师）中学习。我们展示了近期预训练模型出色的鲁棒性和多功能性挑战了文献中已经建立起来的共同实践，需要一组新的最优准则来进行特定任务的蒸馏。为了解决下游任务中样本不足的问题，我们还展示了一种基于稳定扩散的 Mixup 变体，该策略补充了标准数据增强，消除了工程化的文本提示的需求，改善了通用模型向精简专用网络的蒸馏。

Feb, 2024