I$^2$MD:带有内外模态相互蒸馏的三维动作表征学习
本文提出了一种新的跨模态交互知识蒸馏框架 Cross-modal Mutual Distillation (CMD) 来学习自监督的三维动作表示,该框架中引入邻域相似性分布来建模每种模态中学到的知识,并使用非对称配置来稳定蒸馏过程和在模态之间传输高置信度的信息,该方法在多个数据集上均举行了大量实验,超出了现有的自监督方法并创造了一系列新记录。
Aug, 2022
提出了一种创新的 Competitive Multi-modal Distillation(CoMD)框架,捕捉学生模型和教师模型之间的双向反馈,并不断更新学生模型学到的多模态能力,研究结果表明,我们的知识迁移方法在各种数据集上稳定提升了学生模型的能力,经过四次蒸馏后,7B 大小的学生模型在 ScienceQA 和 LLaVA Test 数据集上超过了当前最先进的 LLaVA-13B 模型,在零样本设置下也优于其他强基线模型。
Nov, 2023
跨模态蒸馏是一个重要主题,用于包含有限知识的数据模态,如深度图和高质量素描。我们提出了一个基于对比学习的跨模态对比蒸馏(CMCD)的通用框架,该框架利用正负对应关系更好地蒸馏可泛化的特征,并在实验结果和收敛分析中验证了源模态和目标模态之间的距离对目标模态下游任务的测试误差有着显著影响。
May, 2024
本文提出了一种去耦合的多模态蒸馏(DMD)方法,通过使用图蒸馏单元(GD-Unit)和构建动态图来实现灵活和自适应的多模态知识蒸馏,以提高每种模态的辨别特征。实验结果表明,DMD 方法优于最先进的 MER 方法,并且在 DMD 中的图边展现出与无关 / 专用空间以及有意义的分布模式。
Mar, 2023
研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态,提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法,使得几乎达到了使用完全监督训练的学生网络的精度。
Oct, 2019
基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练,但并不总是能在开发场景中获得所有的模态,这给基于不完整模态的推断带来了挑战。为了解决这个问题,本文提出了一个一阶段模态蒸馏框架,通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比,这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络,以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后,我们介绍了模态融合任务的交叉翻译网络,以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明,提出的多模态继承框架可以克服各种场景中不完整模态输入的问题,并实现最先进的性能。
Sep, 2023
本研究提出了一种新的多模态视频动作识别方法,利用 RGB 数据以外的深度数据进行训练,在测试时利用 RGB 数据进行分类,通过精简网络来进行深度特征的提取,经过实验得到了目前最佳的分类结果。
Jun, 2018
本文提出了一种利用形状先验知识和图像对齐模块,通过多模态数据协同分割医学图像的方法,并通过实验在 MMWHS 2017 数据集上验证了该方法在 CT 分割上的优越性。
Oct, 2020
基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类,这需要大量的预定义动作类别注释;而基于自监督学习的方法涉及预处理任务中的骨架变换,可能会损害骨架结构。为了解决这些挑战,我们引入了一种新颖的基于骨骼的训练框架(C$^2$VL),基于跨模态对比学习,使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。
May, 2024
在最近几年,少量样本行为识别引起了越来越多的关注。该领域通常采用元学习的范式。在有限样本的基础上,克服类别的重叠分布和异常值仍然是一个具有挑战性的问题。我们相信多模态和多视角相结合可以改善这个问题,取决于信息的互补性。因此,我们提出了一种基于多模态融合的多视角蒸馏方法。首先,构建一个用于查询的概率提示选择器,根据支持样本的提示嵌入和查询的视觉嵌入之间的比较分数生成概率提示嵌入。其次,在每个视角中,我们将提示嵌入与视觉嵌入以及全局或局部时间上下文融合,克服类别的重叠分布和异常值。第三,我们对多视角进行距离融合,并进行互相之间的匹配能力蒸馏,使模型对分布偏差更加鲁棒。我们的代码可在以下网址找到:https://github.com/cofly2014/MDMF。
Jan, 2024