跨模态蒸馏用于监督迁移
本研究提出利用跨模态蒸馏技术从大量无标签 RGB-TIR 数据中提炼 TIR 模态的目标表示,作为热红外追踪的优化方法,并利用 RGB 和 TIR 图像中的语义信息进行 “蒸馏损失” 的监督学习,成功地推广到 LSOTB-TIR 和 PTB-TIR 数据集中,比基线跟踪器的绝对增益显著。
Jul, 2021
跨模态蒸馏是一个重要主题,用于包含有限知识的数据模态,如深度图和高质量素描。我们提出了一个基于对比学习的跨模态对比蒸馏(CMCD)的通用框架,该框架利用正负对应关系更好地蒸馏可泛化的特征,并在实验结果和收敛分析中验证了源模态和目标模态之间的距离对目标模态下游任务的测试误差有着显著影响。
May, 2024
本文提出了一种新的跨模态交互知识蒸馏框架 Cross-modal Mutual Distillation (CMD) 来学习自监督的三维动作表示,该框架中引入邻域相似性分布来建模每种模态中学到的知识,并使用非对称配置来稳定蒸馏过程和在模态之间传输高置信度的信息,该方法在多个数据集上均举行了大量实验,超出了现有的自监督方法并创造了一系列新记录。
Aug, 2022
基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练,但并不总是能在开发场景中获得所有的模态,这给基于不完整模态的推断带来了挑战。为了解决这个问题,本文提出了一个一阶段模态蒸馏框架,通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比,这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络,以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后,我们介绍了模态融合任务的交叉翻译网络,以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明,提出的多模态继承框架可以克服各种场景中不完整模态输入的问题,并实现最先进的性能。
Sep, 2023
研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态,提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法,使得几乎达到了使用完全监督训练的学生网络的精度。
Oct, 2019
本文介绍了一种新的跨模态知识迁移方法,使用组合对比学习来学习复合嵌入,通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明,该方法显著优于现有的知识蒸馏方法。
Apr, 2021
本文提出了一种名为 “跨模态知识普适” 的新方法,将一个以高级模态(教师)训练的模型中的知识传递给以较弱模态(学生)训练的另一个模型,同时不需要在教师数据集中配对数据。通过在参数上建模知识,来将源数据集中积累的跨模态知识泛化到目标数据集,最终在标准基准数据集上展示了 3D 手势估计的竞争性表现。
Apr, 2020
本研究提出了一种新颖的 4D 雷达基于场景流估计的跨模态学习方法,并使用多任务模型体系结构和损失函数,来通过多重跨模态约束有效地进行模型训练,结果表明其在场景流估计上具有良好的表现和实用性。
Mar, 2023