一阶段模态蒸馏用于不完整多模态学习

Sep, 2023

一阶段模态蒸馏用于不完整多模态学习

One-stage Modality Distillation for Incomplete Multimodal Learning

Shicai Wei, Yang Luo, Chunbo Luo

TL;DR基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练，但并不总是能在开发场景中获得所有的模态，这给基于不完整模态的推断带来了挑战。为了解决这个问题，本文提出了一个一阶段模态蒸馏框架，通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比，这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络，以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后，我们介绍了模态融合任务的交叉翻译网络，以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明，提出的多模态继承框架可以克服各种场景中不完整模态输入的问题，并实现最先进的性能。

Abstract

Learning based on multimodal data has attracted increasing interest recently. While a variety of sensory modalities can be collected for training, not all of them are always available in development scenarios, which raises the challenge to infer with incomplete modality. To address thi

multimodal data modality distillation privileged knowledge transfer modality information fusion multimodal inheritance framework

发现论文，激发创造

多模态到单模态的分割网络知识蒸馏

本文介绍了一个用于医学图像分割的 KD-Net 框架，该框架可以从一个多模态网络（teacher）向一个单模态网络（student）传输知识，证明了其在使用 BraTS 2018 数据集进行脑肿瘤分割任务时，有效提高了分割的准确性。

Jun, 2021

多流网络的模态蒸馏用于动作识别

本研究提出了一种新的多模态视频动作识别方法，利用 RGB 数据以外的深度数据进行训练，在测试时利用 RGB 数据进行分类，通过精简网络来进行深度特征的提取，经过实验得到了目前最佳的分类结果。

Jun, 2018

基于知识蒸馏的非配对多模式分割

本研究提出了一种新颖的多模式学习方案，以实现无配对交叉模态图像分割，该方案采用高度压缩的体系结构，通过共享所有卷积核跨 CT 和 MRI 和仅使用特定于模态的内部归一化层来对网络参数进行大量重用，通过知识蒸馏受启发的新颖损失项来显式约束我们推导出的模态之间的预测分布的 KL 散度来有效地训练这样的高度紧凑模型。在心脏结构分割和腹部器官分割两个多类分割问题上进行了广泛验证，实验结果表明，我们的新型多模式学习方案在两个任务上一致优于单模态培训和以前的多模式方法。

Jan, 2020

跨模态对比学习蒸馏理论研究

跨模态蒸馏是一个重要主题，用于包含有限知识的数据模态，如深度图和高质量素描。我们提出了一个基于对比学习的跨模态对比蒸馏（CMCD）的通用框架，该框架利用正负对应关系更好地蒸馏可泛化的特征，并在实验结果和收敛分析中验证了源模态和目标模态之间的距离对目标模态下游任务的测试误差有着显著影响。

May, 2024

利用对抗性判别式模态蒸馏技术学习含特殊信息的数据

本研究针对深度学习中的异构数据模态问题提出了一种新的方法 —— 基于对抗学习与特权信息框架下的 RGB-D 视觉任务的幻象网络训练方法，旨在从深度和 RGB 视频中提取信息，使得在测试时，只需要使用 RGB 数据即可。这一方法在 NYUD 数据集的目标分类和最大多模态视频行为识别数据集（NTU RGB+D）以及美国西北大学加洛斯高等研究院的数据集上均取得了领先的结果。

Oct, 2018

多模导向网络用于缺失模态推断

提出了一种通过引导网络在训练阶段促进知识共享，利用多模式表示训练用于推理的更好的单模式模型，以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明，所提出的框架训练的单模式模型明显优于传统训练的模型，并且推理成本相同。

Sep, 2023

感知模态聚焦假设：跨模态知识蒸馏的理解

本文主要探讨了跨模态知识迁移中知识蒸馏的机制，并提出使用模态 Venn 图和模态聚焦假设来提高跨模态知识迁移的有效性。通过对 6 个多模态数据集的实验结果，证明了作者的假设，并指向未来的改进方向。

Jun, 2022

增强多模态学习：元学习的跨模态知识蒸馏处理缺失模态

我们提出了一种称为元学习的跨模态知识蒸馏的新方法，可以使多模态模型在缺少重要模态的情况下仍具有高准确性。该方法通过自适应估计每种模态的重要性权重，并利用跨模态知识蒸馏将高重要性权重的模态的知识转移到低重要性权重的模态上，从而产生高准确性模型。该方法在多个任务中有效，并实验结果表明在脑肿瘤分割和音视觉 - MNIST 分类方面，优于现有的模型。

May, 2024

可学习的跨模态知识蒸馏在多模态学习中的应用与缺失模态

本文提出了一种可学习的跨模态知识蒸馏（LCKD）模型，通过从最佳性能模态中提取有用信息，自适应地识别重要模态并将知识蒸馏给其他模态，从而解决了缺失模态问题，实验证明 LCKD 在肿瘤分割中的表现超过其他方法，分割 Dice 分数提高了 3.61％、5.99％和 3.76％。

Oct, 2023

MSD: 多模态理解中的显著性感知知识蒸馏

研究对知识蒸馏在多模态数据集上的应用，提出了一种多模态知识蒸馏框架 MSD，其中引入辅助损失项和基于显著度得分的加权方案以及基于权重学习的方法，实验结果表明 MSD 比 KD 在四个多模态数据集上表现更好。

Jan, 2021