多模态知识扩展

ICCVMar, 2021

Multimodal Knowledge Expansion

Zihui Xue, Sucheng Ren, Zhengqi Gao, Hang Zhao

TL;DR该研究提出了一种新的基于知识蒸馏的多模态知识增强 (MKE) 框架，能够有效利用大量未标记的多模态数据，并将该框架与半监督学习机制联系起来，提出了关于多模态学生模型去噪能力的理论解释。

Abstract

The popularity of multimodal sensors and the accessibility of the Internet have brought us a massive amount of unlabeled multimodal data. Since existing datasets and well-trained models are primarily unimodal, the modality gap between a unimodal network and unlabeled multimodal data po

multimodal sensors unlabeled data multimodal knowledge expansion knowledge distillation semi-supervised learning

发现论文，激发创造

多模态到单模态的分割网络知识蒸馏

本文介绍了一个用于医学图像分割的 KD-Net 框架，该框架可以从一个多模态网络（teacher）向一个单模态网络（student）传输知识，证明了其在使用 BraTS 2018 数据集进行脑肿瘤分割任务时，有效提高了分割的准确性。

Jun, 2021

增强多模态学习：元学习的跨模态知识蒸馏处理缺失模态

我们提出了一种称为元学习的跨模态知识蒸馏的新方法，可以使多模态模型在缺少重要模态的情况下仍具有高准确性。该方法通过自适应估计每种模态的重要性权重，并利用跨模态知识蒸馏将高重要性权重的模态的知识转移到低重要性权重的模态上，从而产生高准确性模型。该方法在多个任务中有效，并实验结果表明在脑肿瘤分割和音视觉 - MNIST 分类方面，优于现有的模型。

May, 2024

基于知识蒸馏的非配对多模式分割

本研究提出了一种新颖的多模式学习方案，以实现无配对交叉模态图像分割，该方案采用高度压缩的体系结构，通过共享所有卷积核跨 CT 和 MRI 和仅使用特定于模态的内部归一化层来对网络参数进行大量重用，通过知识蒸馏受启发的新颖损失项来显式约束我们推导出的模态之间的预测分布的 KL 散度来有效地训练这样的高度紧凑模型。在心脏结构分割和腹部器官分割两个多类分割问题上进行了广泛验证，实验结果表明，我们的新型多模式学习方案在两个任务上一致优于单模态培训和以前的多模式方法。

Jan, 2020

可学习的跨模态知识蒸馏在多模态学习中的应用与缺失模态

本文提出了一种可学习的跨模态知识蒸馏（LCKD）模型，通过从最佳性能模态中提取有用信息，自适应地识别重要模态并将知识蒸馏给其他模态，从而解决了缺失模态问题，实验证明 LCKD 在肿瘤分割中的表现超过其他方法，分割 Dice 分数提高了 3.61％、5.99％和 3.76％。

Oct, 2023

MSD: 多模态理解中的显著性感知知识蒸馏

研究对知识蒸馏在多模态数据集上的应用，提出了一种多模态知识蒸馏框架 MSD，其中引入辅助损失项和基于显著度得分的加权方案以及基于权重学习的方法，实验结果表明 MSD 比 KD 在四个多模态数据集上表现更好。

Jan, 2021

跨模态知识蒸馏增强的多模态表征学习

本文介绍了一种基于多模态表示学习的学生 - 教师框架，并采用了对比学习和对抗学习等方法来优化相互信息和条件熵，以提高视频识别、检索和情感分类等多模态任务的性能。

Jun, 2023

一阶段模态蒸馏用于不完整多模态学习

基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练，但并不总是能在开发场景中获得所有的模态，这给基于不完整模态的推断带来了挑战。为了解决这个问题，本文提出了一个一阶段模态蒸馏框架，通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比，这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络，以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后，我们介绍了模态融合任务的交叉翻译网络，以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明，提出的多模态继承框架可以克服各种场景中不完整模态输入的问题，并实现最先进的性能。

Sep, 2023

感知模态聚焦假设：跨模态知识蒸馏的理解

本文主要探讨了跨模态知识迁移中知识蒸馏的机制，并提出使用模态 Venn 图和模态聚焦假设来提高跨模态知识迁移的有效性。通过对 6 个多模态数据集的实验结果，证明了作者的假设，并指向未来的改进方向。

Jun, 2022

知识作为先验：跨模态知识泛化在无优先知识数据集上

本文提出了一种名为 “跨模态知识普适” 的新方法，将一个以高级模态（教师）训练的模型中的知识传递给以较弱模态（学生）训练的另一个模型，同时不需要在教师数据集中配对数据。通过在参数上建模知识，来将源数据集中积累的跨模态知识泛化到目标数据集，最终在标准基准数据集上展示了 3D 手势估计的竞争性表现。

Apr, 2020

VideoAdviser: 多模态迁移学习的视频知识蒸馏

提出了一种名为 VideoAdviser 的视频知识蒸馏方法，用于实现高效性能的多模块转移学习；通过使用基于 CLIP 的教师模型向基于 RoBERTa 的学生模型提供丰富的多模态知识监督信号，从而在多个挑战性的多模态任务中实现了有效的知识转移。

Sep, 2023