多模态知识扩展
本文介绍了一个用于医学图像分割的 KD-Net 框架,该框架可以从一个多模态网络(teacher)向一个单模态网络(student)传输知识,证明了其在使用 BraTS 2018 数据集进行脑肿瘤分割任务时,有效提高了分割的准确性。
Jun, 2021
我们提出了一种称为元学习的跨模态知识蒸馏的新方法,可以使多模态模型在缺少重要模态的情况下仍具有高准确性。该方法通过自适应估计每种模态的重要性权重,并利用跨模态知识蒸馏将高重要性权重的模态的知识转移到低重要性权重的模态上,从而产生高准确性模型。该方法在多个任务中有效,并实验结果表明在脑肿瘤分割和音视觉 - MNIST 分类方面,优于现有的模型。
May, 2024
本研究提出了一种新颖的多模式学习方案,以实现无配对交叉模态图像分割,该方案采用高度压缩的体系结构,通过共享所有卷积核跨 CT 和 MRI 和仅使用特定于模态的内部归一化层来对网络参数进行大量重用,通过知识蒸馏受启发的新颖损失项来显式约束我们推导出的模态之间的预测分布的 KL 散度来有效地训练这样的高度紧凑模型。在心脏结构分割和腹部器官分割两个多类分割问题上进行了广泛验证,实验结果表明,我们的新型多模式学习方案在两个任务上一致优于单模态培训和以前的多模式方法。
Jan, 2020
本文提出了一种可学习的跨模态知识蒸馏(LCKD)模型,通过从最佳性能模态中提取有用信息,自适应地识别重要模态并将知识蒸馏给其他模态,从而解决了缺失模态问题,实验证明 LCKD 在肿瘤分割中的表现超过其他方法,分割 Dice 分数提高了 3.61%、5.99%和 3.76%。
Oct, 2023
研究对知识蒸馏在多模态数据集上的应用,提出了一种多模态知识蒸馏框架 MSD,其中引入辅助损失项和基于显著度得分的加权方案以及基于权重学习的方法,实验结果表明 MSD 比 KD 在四个多模态数据集上表现更好。
Jan, 2021
本文介绍了一种基于多模态表示学习的学生 - 教师框架,并采用了对比学习和对抗学习等方法来优化相互信息和条件熵,以提高视频识别、检索和情感分类等多模态任务的性能。
Jun, 2023
基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练,但并不总是能在开发场景中获得所有的模态,这给基于不完整模态的推断带来了挑战。为了解决这个问题,本文提出了一个一阶段模态蒸馏框架,通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比,这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络,以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后,我们介绍了模态融合任务的交叉翻译网络,以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明,提出的多模态继承框架可以克服各种场景中不完整模态输入的问题,并实现最先进的性能。
Sep, 2023
本文主要探讨了跨模态知识迁移中知识蒸馏的机制,并提出使用模态 Venn 图和模态聚焦假设来提高跨模态知识迁移的有效性。通过对 6 个多模态数据集的实验结果,证明了作者的假设,并指向未来的改进方向。
Jun, 2022
本文提出了一种名为 “跨模态知识普适” 的新方法,将一个以高级模态(教师)训练的模型中的知识传递给以较弱模态(学生)训练的另一个模型,同时不需要在教师数据集中配对数据。通过在参数上建模知识,来将源数据集中积累的跨模态知识泛化到目标数据集,最终在标准基准数据集上展示了 3D 手势估计的竞争性表现。
Apr, 2020
提出了一种名为 VideoAdviser 的视频知识蒸馏方法,用于实现高效性能的多模块转移学习;通过使用基于 CLIP 的教师模型向基于 RoBERTa 的学生模型提供丰富的多模态知识监督信号,从而在多个挑战性的多模态任务中实现了有效的知识转移。
Sep, 2023